개인공부&프로젝트

CVPR과 UIST에 등장한 1인칭 시점으로 압력 예측하는 논문 비교해 보기

백악기작은펭귄 2025. 6. 16.
반응형

CVPR과 UIST에 등장한 1인칭 시점으로 압력 예측하는 논문 비교해 보기

얼마 전 CVPR 2025 논문들을 훑어보다가, 흥미로운 주제를 다룬 논문 하나가 눈에 들어왔다. "사람의 손이 무언가를 만질 때, 기계가 그 촉각(압력) 정보를 단지 '보기만 하고도' 추정할 수 있을까?"라는 질문에서 출발한 연구였다.

 

이 논문을 보자마자, 문득 UIST 2024에서 접했던 비슷한 주제의 논문이 떠올랐다. 둘 다 1인칭 시점에서 손의 압력을 예측한다는 공통점이 있지만, 접근 방식은 꽤 다르다. 짧게 비교해 보면 재미있을 것 같아 이 글로 정리해 본다.

 

공통 주제: 1인칭 시점 영상으로 터치 압력 계산하기

두 논문 모두 에고센트릭(1인칭 시점) 영상 기반으로 손의 압력을 추정하는 기술을 다루고 있다. 하지만 센싱 방식과 활용 목적에서 뚜렷한 차이를 보인다.

 

먼저 EgoPressure (CVPR 2025)는 고정된 압력 패드 위에서 손의 다양한 제스처를 캡처하고, 멀티 카메라와 3D 손 메쉬를 활용해 정밀하고 구조화된 데이터를 수집하는 방식이다. 이 방식은 제어된 환경에서 고해상도 정보를 기반으로 작동하기 때문에, 로봇 조작이나 시뮬레이션처럼 정밀한 제어가 필요한 분야에 특히 적합하다.

 

반면 EgoTouch (UIST 2024)는 보다 일상적인 환경에 초점을 맞춘다. 사용자의 손바닥에 센서를 부착한 채, 실제 물체를 다루는 자연스러운 상호작용 중에 데이터를 수집하고, 에고센트릭 RGB 영상만으로 압력 패턴을 학습하는 방식을 택한다. 덕분에 이 방식은 AR/VR, 웨어러블 인터페이스 등 사용자 중심 인터랙션을 다루는 응용 분야에 더 적합하다.

 

두 논문 모두 손의 압력을 시각적 정보만으로 추정하려는 시도라는 점에서는 공통되지만, EgoPressure는 정제된 환경에서의 정밀함, EgoTouch는 실제 사용 환경에서의 자연스러움에 각각 무게를 두고 있다는 점에서 방향이 다르다.

 

인상 깊었던 부분: 문제를 framing 하는 방식의 차이

두 연구가 특히 흥미로웠던 이유는, 단순히 기술적인 차이 때문이 아니라 '문제를 어떻게 정의하고 해석하느냐'에서 접근 방식이 뚜렷하게 갈렸기 때문이다.

 

EgoPressure는 기술 중심의 접근을 택한다. 보다 정밀하고 확장 가능한 시스템을 만들기 위해, 구조화된 환경에서 제어 가능한 고품질 데이터를 수집하고, 그 위에서 정교한 모델링과 제어 성능을 끌어올리는 데 집중한다. 연구 설계 자체가 "우리가 만들 수 있는 가장 정확한 시스템은 무엇인가?"라는 질문에서 출발한 느낌이다.

 

반면 EgoTouch는 사용자 중심의 접근을 택한다. 사람들이 실제로 일상 속에서 어떻게 손을 쓰고, 어떻게 물체와 상호작용하는지를 먼저 관찰하고, 그 복잡하고 예측 불가능한 환경 속에서 의미 있는 패턴을 추출하려고 한다. 기술적 완결성보다는 실제 사용 맥락에 대한 이해와 수용에 무게를 두는 방식이다.

 

이 두 방향 중 어느 하나가 절대적으로 옳다고 말할 수는 없지만, 개인적으로는 EgoTouch 쪽이 HCI의 감수성과 더 맞닿아 있다는 생각이 들었다. 기술이 얼마나 정밀할 수 있는가도 중요한 질문이지만, 그보다 더 중요한 건 기술이 실제 사람들의 삶과 경험에 얼마나 자연스럽게 녹아들 수 있는가라는 점이다.

 

AI가 점점 더 사람의 신체와 행동, 감각에 가까이 들어오는 지금 같은 시점에서는, 겉으로 보이는 움직임만을 추정하는 것에서 한 걸음 더 나아가 의도와 맥락까지 함께 읽어내는 감각이 요구되고 있다. 그런 의미에서, 이 두 논문은 단순히 기술을 비교하기보다, 우리가 어떤 방향의 기술을 만들어야 할지를 되돌아보게 하는 좋은 대비 사례였다.

반응형

댓글