논문 리뷰9 [Paper Review] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data TL;DR이 논문은 단안 깊이 추정을 위한 Foundation Model인 'Depth Anything'을 제시한다. 1.5M의 라벨된 이미지와 6,200만 개 이상의 unlabeled 이미지를 pseudo label로 활용하여 성능을 향상시켰다. Semantic Segmentation 모델을 보조 태스크로 사용하고, DINOv2의 pretrained weights로 인코더를 초기화하였다. Affine-invariant Loss와 CutMix 등 다양한 augmentation을 적용하여 Teacher-Student 구조로 학습하였다. 그 결과, 다양한 unseen dataset에서 SOTA 성능을 달성하였다. 하지만 저자들만의 특별한 Novelty가 부족하며, 대규모 unlabeled dataset의 잠.. 리뷰/논문 리뷰 2024. 3. 3. [Paper Review] Masked Autoencoders Are Scalable Vision Learners Masked Autoencoders Are Scalable Vision Learners He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. Abstract 해당 논문에서 제시한 Masked Autoencoder(이하 MAE)는 Autoencoder 방식과 Self-supervised Learning을 결합한 모델로, asymmetric encoder-decoder 모델 구조를 가진다. 기존 자연어처리 분야에서 많이 사용되던 Masked language modeling을 이.. 리뷰/논문 리뷰 2023. 1. 12. [Paper Review] Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network (Peng et al., 2017) Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network Chao Peng, Xiangyu Zhang, Gang Yu, Guiming Luo, Jian Sun; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 4353-4361 Abstract 네트워크 아키텍처 디자인 연구에 있어, 당시 트렌드는 큰 커널 대신 작은 필터(1x1 혹은 3x3)를 여러 개 쌓는 형태를 선호하는 모습을 보였다. 이는 이미지 처리 분야에서 같은 컴퓨팅 자원 소모 대비 성능이 좋았기 때문인데, Semantic Se.. 리뷰/논문 리뷰 2022. 8. 18. [Paper Review] RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation (Lin et al., 2017) RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation Guosheng Lin, Anton Milan, Chunhua Shen, Ian Reid; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1925-1934 Abstract 지금까지 리뷰한 논문들은 성공적인 Semantic Segmentation을 위해 이미지 처리의 자타공인 강자, CNNs를 수정한 구조들을 제시하였다. 기본적인 CNN은 층을 거칠수록 resolution이 낮아진다는 문제를 해결하기 위해 Upsampling이나 Dil.. 리뷰/논문 리뷰 2022. 7. 29. [Paper Review] Dilated Residual Networks (Yu et al., 2017) Dilated Residual Networks Fisher Yu, Vladlen Koltun, Thomas Funkhouser; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 472-480 Abstract 2016년에 공개된 DilatedNet(리뷰)에 이어 등장한 모델 구조이다. Semantic Segmentation은 물론, 모델의 깊이나 복잡성 증가 없이 Image Classification에서도 좋은 성능을 낼 수 있는 DRN은 Dilated Convolution 개념에 잔차(Residual) 개념을 더한 구조이다. 2022년 7월 기준 약 1,200회 이상의 인용 수를 보.. 리뷰/논문 리뷰 2022. 7. 26. [Paper Review] Multi-Scale Context Aggregation by Dilated Convolutions (Yu et al., 2016) Multi-Scale Context Aggregation by Dilated Convolutions Fisher Yu, Vladlen Koltun; Published as a conference paper at ICLR 2016 Abstract 이번 논문은 Dilated Convolution을 제안하여, 이미지의 resolution 손실을 최소화하며 receptive field를 확장할 수 있도록 한 논문이다. 이전에 리뷰했던 논문인 DeepLab과 풀고자 하는 문제도 비슷하고, Hole 알고리즘을 사용했다는 점도 비슷하지만, backbone 역할을 하는 Front-end module과 dilated convolution으로 이루어진 Context module로 나눠져 있다는 점이 독특한 점이다. 해당 .. 리뷰/논문 리뷰 2022. 7. 23. [Paper Review] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (Chen & Papandreou et al., 2015) Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille; Published as a conference paper at ICLR 2015 * 위 논문에서 처음 제안된 구조인 DeepLab은 몇 번의 수정을 거치며 발전하였고, 이에 따라 v1부터 v3+까지 버전이 나뉘어있다. 이하 리뷰는 v1을 기준으로 한다. Abstract Deep Convolution Neural Networks(이하 DCNNs)는 Image Classification, Object Detecti.. 리뷰/논문 리뷰 2022. 7. 21. [Paper Review] Learning Deconvolution Network for Semantic Segmentation (H Noh, S Hong, B Han, 2015) Learning Deconvolution Network for Semantic Segmentation Hyeonwoo Noh, Seunghoon Hong, Bohyung Han; Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1520-1528 Abstract 이번 논문은 FCN에 이어 등장한 Semantic Segmentation 분야 논문으로, Max Unpooling 개념을 활용해 기존 FCN이 Upsampling에 과도하게 의존한 탓에 큰 Object와 작은 Object에 대해서 Segmentation을 제대로 하지 못하는 문제를 해결한 논문이다. 해당 논문은 FCN의 문제가 고정된 Recep.. 리뷰/논문 리뷰 2022. 7. 19. [Paper Review] Fully Convolutional Networks for Semantic Segmentation (Long & Shelhammer et al., 2015) Fully Convolutional Networks for Semantic Segmantation Jonathan Long, Evan Shelhamer, Trevor Darrell; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3431-3440 Abstract 이번 논문은 2015년에 공개된 Semantic Segmentation 분야 논문으로, 각 픽셀 별로 일정한 Bounding Box 크기만큼 Classification을 적용하여 해당 픽셀의 종류를 추론하는 기존 접근 방식을 획기적으로 바꾼 논문이다. 기존에 사용되던 Fully Connected Layer 대신 1x1 Co.. 리뷰/논문 리뷰 2022. 7. 16. 이전 1 다음