리뷰/논문 리뷰13 [Paper Review] Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation SystemKamijo, Tatsuya, Cristian C. Beltran-Hernandez, and Masashi Hamaya. "Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System." arXiv preprint arXiv:2406.14990 (2024).연구 배경 및 제안 방법강체 로봇으로 접촉이 많은 복잡한 작업을 자동화하는.. 리뷰/논문 리뷰 2024. 11. 11. [Paper Review] GazeGen: Gaze-Driven User Interaction for Visual Content Generation TL;DRGazeGen은 Harvard와 Meta Reality Labs Research가 개발한 시스템으로, 사용자의 시선을 이용해 AR 환경에서 콘텐츠를 생성하고 조작할 수 있는 새로운 상호작용 방식을 제공한다. 주요 기술인 DFT Gaze는 Knowledge Distillation과 Masked Autoencoder로 경량화된 모델이며, 적은 파라미터로도 높은 정확도를 유지한다. GazeGen은 사용자가 시선을 통해 객체를 추가, 삭제, 재배치하는 편집을 가능하게 하고, Midas Touch 문제를 해결하기 위해 Trigger Mechanism을 도입해 의도하지 않은 조작을 방지한다. 시스템은 AR 및 VR 환경에서 사용자의 비언어적 의도를 실시간으로 파악해 사용자 경험을 확장할 가능성을 보여주며,.. 리뷰/논문 리뷰 2024. 11. 9. [Paper Review] Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together TL;DR스탠퍼드 연구진은 복잡한 다단계 NLP 작업에서 모듈형 언어 모델 파이프라인의 최적화를 위해 'BetterTogether' 알고리즘을 제안했다. 이 알고리즘은 프롬프트 최적화(Prompt Optimization)와 가중치 조정(Fine-Tuning)을 번갈아 수행하여 멀티턴 QA, 수학문제 해결, 테이블 데이터 분류 태스크에서 최대 78%의 성능 향상을 달성했다. BFRS와 LoRA 기법을 활용해 프롬프트 예시를 최적화하고 모델을 미세 조정함으로써, 제한된 학습 데이터에서도 높은 정확도의 NLP 시스템 구축이 가능해졌다.Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together자연어 처리(NLP) 분야에서 언어 모.. 리뷰/논문 리뷰 2024. 10. 26. 1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023 TL;DR이 솔루션은 ICCV 2023 Egocentric 3D Hand Pose Estimation Challenge에서 1위를 차지한 기술로, 1인칭 시점에서 손의 위치와 자세를 3D로 추정하는 문제에 대해 높은 정확도를 달성했다. 주요 접근법은 Pre-trained Vision-Transformer(ViT)를 활용한 특징 추출과 다양한 Augmentation 기법을 적용한 것이다. 특히, Multi-view 데이터를 활용해 Occlusion 문제를 해결하고, Smoothing 기법과 앙상블을 통해 성능을 최적화했다. 최종 성능은 12.2mm MPJPE를 기록했으며, ViT와 ConvNext를 결합한 Multi-model fusion으로 정확도를 높였다.1st Place Solution of Egoc.. 리뷰/논문 리뷰 2024. 3. 17. [Paper Review] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data TL;DR이 논문은 단안 깊이 추정을 위한 Foundation Model인 'Depth Anything'을 제시한다. 1.5M의 라벨된 이미지와 6,200만 개 이상의 unlabeled 이미지를 pseudo label로 활용하여 성능을 향상시켰다. Semantic Segmentation 모델을 보조 태스크로 사용하고, DINOv2의 pretrained weights로 인코더를 초기화하였다. Affine-invariant Loss와 CutMix 등 다양한 augmentation을 적용하여 Teacher-Student 구조로 학습하였다. 그 결과, 다양한 unseen dataset에서 SOTA 성능을 달성하였다. 하지만 저자들만의 특별한 Novelty가 부족하며, 대규모 unlabeled dataset의 잠.. 리뷰/논문 리뷰 2024. 3. 3. [Paper Review] Masked Autoencoders Are Scalable Vision Learners Masked Autoencoders Are Scalable Vision Learners He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. Abstract 해당 논문에서 제시한 Masked Autoencoder(이하 MAE)는 Autoencoder 방식과 Self-supervised Learning을 결합한 모델로, asymmetric encoder-decoder 모델 구조를 가진다. 기존 자연어처리 분야에서 많이 사용되던 Masked language modeling을 이.. 리뷰/논문 리뷰 2023. 1. 12. [Paper Review] Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network (Peng et al., 2017) Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network Chao Peng, Xiangyu Zhang, Gang Yu, Guiming Luo, Jian Sun; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 4353-4361 Abstract 네트워크 아키텍처 디자인 연구에 있어, 당시 트렌드는 큰 커널 대신 작은 필터(1x1 혹은 3x3)를 여러 개 쌓는 형태를 선호하는 모습을 보였다. 이는 이미지 처리 분야에서 같은 컴퓨팅 자원 소모 대비 성능이 좋았기 때문인데, Semantic Se.. 리뷰/논문 리뷰 2022. 8. 18. [Paper Review] RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation (Lin et al., 2017) RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation Guosheng Lin, Anton Milan, Chunhua Shen, Ian Reid; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1925-1934 Abstract 지금까지 리뷰한 논문들은 성공적인 Semantic Segmentation을 위해 이미지 처리의 자타공인 강자, CNNs를 수정한 구조들을 제시하였다. 기본적인 CNN은 층을 거칠수록 resolution이 낮아진다는 문제를 해결하기 위해 Upsampling이나 Dil.. 리뷰/논문 리뷰 2022. 7. 29. [Paper Review] Dilated Residual Networks (Yu et al., 2017) Dilated Residual Networks Fisher Yu, Vladlen Koltun, Thomas Funkhouser; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 472-480 Abstract 2016년에 공개된 DilatedNet(리뷰)에 이어 등장한 모델 구조이다. Semantic Segmentation은 물론, 모델의 깊이나 복잡성 증가 없이 Image Classification에서도 좋은 성능을 낼 수 있는 DRN은 Dilated Convolution 개념에 잔차(Residual) 개념을 더한 구조이다. 2022년 7월 기준 약 1,200회 이상의 인용 수를 보.. 리뷰/논문 리뷰 2022. 7. 26. [Paper Review] Multi-Scale Context Aggregation by Dilated Convolutions (Yu et al., 2016) Multi-Scale Context Aggregation by Dilated Convolutions Fisher Yu, Vladlen Koltun; Published as a conference paper at ICLR 2016 Abstract 이번 논문은 Dilated Convolution을 제안하여, 이미지의 resolution 손실을 최소화하며 receptive field를 확장할 수 있도록 한 논문이다. 이전에 리뷰했던 논문인 DeepLab과 풀고자 하는 문제도 비슷하고, Hole 알고리즘을 사용했다는 점도 비슷하지만, backbone 역할을 하는 Front-end module과 dilated convolution으로 이루어진 Context module로 나눠져 있다는 점이 독특한 점이다. 해당 .. 리뷰/논문 리뷰 2022. 7. 23. [Paper Review] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs (Chen & Papandreou et al., 2015) Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L. Yuille; Published as a conference paper at ICLR 2015 * 위 논문에서 처음 제안된 구조인 DeepLab은 몇 번의 수정을 거치며 발전하였고, 이에 따라 v1부터 v3+까지 버전이 나뉘어있다. 이하 리뷰는 v1을 기준으로 한다. Abstract Deep Convolution Neural Networks(이하 DCNNs)는 Image Classification, Object Detecti.. 리뷰/논문 리뷰 2022. 7. 21. [Paper Review] Learning Deconvolution Network for Semantic Segmentation (H Noh, S Hong, B Han, 2015) Learning Deconvolution Network for Semantic Segmentation Hyeonwoo Noh, Seunghoon Hong, Bohyung Han; Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1520-1528 Abstract 이번 논문은 FCN에 이어 등장한 Semantic Segmentation 분야 논문으로, Max Unpooling 개념을 활용해 기존 FCN이 Upsampling에 과도하게 의존한 탓에 큰 Object와 작은 Object에 대해서 Segmentation을 제대로 하지 못하는 문제를 해결한 논문이다. 해당 논문은 FCN의 문제가 고정된 Recep.. 리뷰/논문 리뷰 2022. 7. 19. 이전 1 2 다음