본문 바로가기

논문

(25)

[논문] A ConvNet for the 2020s Vision Transformer (ViT)는 기존 ConvNet들보다 더 좋은 SOTA image classification 모델이다. Object detection과 semantic segmentation에는 적합하지 않은 ViT를 계층적인 구조를 이용해 보완한 모델이 Hierarchical Transformer (ex. Swin Transformer)이다. 하지만 이런 모델들의 유효성(effectiveness)은 convolution의 inductive bias가 아닌 Transformer 구조의 우수성으로 치부된다.본 논문에서는 순수 ConvNet으로 얻을 수 있는 한계를 재탐구한다. 기존 ResNet을 vision Transformer로 점진적으로 "현대화"시키면서 성능 향상에 기여하는 요소들을..

[논문] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 본 논문에서는 vision Transformer의 일종인 Swin Transformer를 제시한다. 이 Transformer는 Shifted window를 통해 계층적인 representation을 계산한다. Shifted windowing 기법은 중복되지 않는 local window에서만 self-attention을 계산해 효율성을 높이면서 cross-window 연결을 활용한다. 이 계층적인 구조는 다양한 scale의 이미지를 유연하게 나타내고 이미지 크기에 따라 linear 계산 복잡도를 가지게 한다. 1. IntroductionComputer vision의 모델링은 오랫동안 convolutional neural networks (CNN)으로 모델링 되어왔다.하지만 natural language..

[논문] An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale (2021) Transformer 구조는 natrual language processing 작업의 기본 구조로 자리잡았다. 하지만 computer vision에서의 transformer 활용은 제한적이다. 본 논문에서는 transformer 구조를 직접적으로 이미지 patch들에 적용하고 성능을 검증한다. Vision Transformer (ViT)는 기존 convolutional network들에 준하는 성능과 훨씬 더 적은 학습 자원을 소모한다. 1 IntroductionNatural language processing (NLP) 분야에서는 Transformer 구조를 활용해 더 큰 모델을 효과적으로 학습시킬 수 있게 되었다.하지만 computer vision 분야에서는 convolutional 구조가 여전히..

[논문] Densely Connected Convolutional Networks 최근 연구들은 layer들이 input과 output에 더 가까운 connection을 가지게 해 convolutional network를 더 깊고, 정확하고, 효율적이게 학습하는 방법을 제시한다. 본 논문에서는 이런 연구들을 기반으로한 Dense Convolutional Network (DenseNet)을 제시한다. 이 network에서는 각 layer가 모든 다른 layer로 connection을 가지는 feed-forward 처럼 연결되어 있다. 각 layer의 input으로 모든 이전 layer들의 feature map이 사용된다. 또 스스로의 feature map은 모든 다음 layer들의 input으로 사용된다.DenseNet은 vanishing-gradient 문제를 없애고 feature p..

[논문] FractalNet: Ultra-Deep Neural Networks without Residuals 본 논문에서는 self-similarity에 기반한 neural network 디자인 전략을 소개한다. 간단한 확장 전략을 반복적으로 사용하여 구조적인 레이아웃이 fractal 형식인 deep network들을 생성한다. 이런 network들은 다른 길이의 상호작용하는 subpath들을 가지지만 pass-through나 residual connection은 가지지 않는다. 즉 모든 내부 signal은 filter나 nonlinearity에 의해 바뀌게 된다.실험을 통해 residual network들이 deep convolution network에 필수가 아님을 보여준다. 핵심은 얉은 layer에서 더 깊은 layer로 효과적인 전달을 해나는 것이다. 1 IntroductionResidual netw..

[논문] Deep Networks with Stochastic Depth 100개가 넘는 layer를 가진 convolutional network들은 여러 benchmark들에서 경쟁력있는 결과를 보여준다. 하지만 이런 deep network들을 학습스키는데 많은 도전점들이 있다. 기울기나 forward flow가 사라지기도 하고 학습 시간이 매우 오래 걸린다. 본 논문에서는 stochastic depth 기법을 제시한다. 이 기법은 짧은 network들을 학습시키고 test 시에는 deep networ들을 사용한다. 학습은 깊은 network로 시작해 각 mini-batch마다 무작위로 subset layer들을 identity function을 이용해 우회한다. 이 기법을 통해 학습 시간을 줄이고 정확도를 올릴 수 있다. 1. IntroductionNetwork의 깊이..

[논문] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift https://arxiv.org/abs/1502.03167 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate ShiftTraining Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful paramarxiv.org Deep Ne..

[논문] Dynamic Key-Value Memory Networks for Knowledge Tracing (2017) 기존 모델들인 Bayesian Knowledge Tracing과 Deep Knowledge Tracing은 각 개념에 대한 지식 수준을 분리해서 나타낸다는 단점과 어느 개념을 학생이 어려워하거나 잘하는지 알 수 없는 문제가 있다. 본 논문에서는 Dynamic Key-Value Memory Networks (DKVMN)을 소개한다. 이 모델은 문제에 내포되어있는 개념을 이용하고 학생의 숙련도를 직접적으로 출력할 수 있다. 모델은 지식 개념들을 나타내는 정적인 matrix key와 학생의 숙력도를 나타내는 동적인 matrix value를 사용한다. 이 포스트는 논문의 모든 내용을 포함하지 않는다. 1. IntroductionBayesian Knowledge Tracing (BKT)학생의 지식 수준$s_t..

목록 더보기

티스토리툴바