전체 글 (37) 썸네일형 리스트형 [논문] Patches Are All You Need? Computer Vision 분야에서는 convolutional networks가 주된 구조이다. 하지만 최근에 Transformer-based 모델인 Vision Transformer (ViT)가 소개되고 특정 분야에서 더 좋은 성능을 보여준다. 이는 중요한 의문점이 생기게 한다: ViT의 성능은 본질적으로 더 뛰어난 Transformer 구조 때문인가 또는 input representation으로 patch들을 사용하기 때문인가?본 논문에서는 후자에 힘을 실어주는 증거를 제시한다. 기존 ViT나 MLP-Mixer 보다도 더 간단한 convolution만을 사용하는 ConvMixer를 소개한다. 또 실험을 통해 ConvMixer가 기존 classical vision 모델들과 ViT, MLP-Mixer를.. [논문] MLP-Mixer: An all-MLP Architecture for Vision CNN은 computer vision 분야에서 기본이 되는 모델이다. 최근에 attention-based networks들인 Vision Transformer도 제시된다. 하지만 convolution이나 attention이 좋은 성능을 내는데에 충분하지만 필수적이지는 않다.본 논문에서는 muti-layer perceptron (MLP)에만 기반하는 MLP-Mixer를 제시한다. 큰 데이터셋들과 최근 정규화 기법들을 사용했을 때 MLP-Mixer는 이미지 분류 benchmark들에서 경쟁력있는 성능을 보여준다. 1 Introduction기존 computer vision 분야에서는 CNN이 de-facto standard이다. 최근에는 self-attention layer들에 기반한 Vision Tran.. [논문] A ConvNet for the 2020s Vision Transformer (ViT)는 기존 ConvNet들보다 더 좋은 SOTA image classification 모델이다. Object detection과 semantic segmentation에는 적합하지 않은 ViT를 계층적인 구조를 이용해 보완한 모델이 Hierarchical Transformer (ex. Swin Transformer)이다. 하지만 이런 모델들의 유효성(effectiveness)은 convolution의 inductive bias가 아닌 Transformer 구조의 우수성으로 치부된다.본 논문에서는 순수 ConvNet으로 얻을 수 있는 한계를 재탐구한다. 기존 ResNet을 vision Transformer로 점진적으로 "현대화"시키면서 성능 향상에 기여하는 요소들을.. [논문] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 본 논문에서는 vision Transformer의 일종인 Swin Transformer를 제시한다. 이 Transformer는 Shifted window를 통해 계층적인 representation을 계산한다. Shifted windowing 기법은 중복되지 않는 local window에서만 self-attention을 계산해 효율성을 높이면서 cross-window 연결을 활용한다. 이 계층적인 구조는 다양한 scale의 이미지를 유연하게 나타내고 이미지 크기에 따라 linear 계산 복잡도를 가지게 한다. 1. IntroductionComputer vision의 모델링은 오랫동안 convolutional neural networks (CNN)으로 모델링 되어왔다.하지만 natural language.. [논문] An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale (2021) Transformer 구조는 natrual language processing 작업의 기본 구조로 자리잡았다. 하지만 computer vision에서의 transformer 활용은 제한적이다. 본 논문에서는 transformer 구조를 직접적으로 이미지 patch들에 적용하고 성능을 검증한다. Vision Transformer (ViT)는 기존 convolutional network들에 준하는 성능과 훨씬 더 적은 학습 자원을 소모한다. 1 IntroductionNatural language processing (NLP) 분야에서는 Transformer 구조를 활용해 더 큰 모델을 효과적으로 학습시킬 수 있게 되었다.하지만 computer vision 분야에서는 convolutional 구조가 여전히.. [논문] Densely Connected Convolutional Networks 최근 연구들은 layer들이 input과 output에 더 가까운 connection을 가지게 해 convolutional network를 더 깊고, 정확하고, 효율적이게 학습하는 방법을 제시한다. 본 논문에서는 이런 연구들을 기반으로한 Dense Convolutional Network (DenseNet)을 제시한다. 이 network에서는 각 layer가 모든 다른 layer로 connection을 가지는 feed-forward 처럼 연결되어 있다. 각 layer의 input으로 모든 이전 layer들의 feature map이 사용된다. 또 스스로의 feature map은 모든 다음 layer들의 input으로 사용된다.DenseNet은 vanishing-gradient 문제를 없애고 feature p.. [논문] FractalNet: Ultra-Deep Neural Networks without Residuals 본 논문에서는 self-similarity에 기반한 neural network 디자인 전략을 소개한다. 간단한 확장 전략을 반복적으로 사용하여 구조적인 레이아웃이 fractal 형식인 deep network들을 생성한다. 이런 network들은 다른 길이의 상호작용하는 subpath들을 가지지만 pass-through나 residual connection은 가지지 않는다. 즉 모든 내부 signal은 filter나 nonlinearity에 의해 바뀌게 된다.실험을 통해 residual network들이 deep convolution network에 필수가 아님을 보여준다. 핵심은 얉은 layer에서 더 깊은 layer로 효과적인 전달을 해나는 것이다. 1 IntroductionResidual netw.. [논문] Deep Networks with Stochastic Depth 100개가 넘는 layer를 가진 convolutional network들은 여러 benchmark들에서 경쟁력있는 결과를 보여준다. 하지만 이런 deep network들을 학습스키는데 많은 도전점들이 있다. 기울기나 forward flow가 사라지기도 하고 학습 시간이 매우 오래 걸린다. 본 논문에서는 stochastic depth 기법을 제시한다. 이 기법은 짧은 network들을 학습시키고 test 시에는 deep networ들을 사용한다. 학습은 깊은 network로 시작해 각 mini-batch마다 무작위로 subset layer들을 identity function을 이용해 우회한다. 이 기법을 통해 학습 시간을 줄이고 정확도를 올릴 수 있다. 1. IntroductionNetwork의 깊이.. 이전 1 2 3 4 5 다음