성장通

추천시스템의 한계 본문

ML&DL/추천시스템

추천시스템의 한계

백악기작은펭귄 2022. 5. 17. 18:10

추천시스템의 한계

빅데이터 시대의 흐름에 따라 선택지는 점차 많아지고 있고, 이러한 상황 속에 더욱 빠르게 최적의 선택을 할 수 있도록 도와주는 추천시스템은 굉장히 각광 받고 있고 많이 연구되고 있는 분야임에는 틀림이 없다.

하지만 추천시스템은 당연히 만능이 아니고, 수행하고자 하는 서비스의 목적성에 따라 치열한 고민이 수반되어야 하는 경우가 많다. 기본적으로 최적의 추천을 위해서 어떤 데이터를 어떻게, 얼마나 수집해야 하는지에 대한 설계가 필요하며, 수집된 데이터를 어떻게 사용해서 언제 추천할 것인지 또한 중요하다.

적절한 추천시스템의 구축을 위해 고민해야 하는 대표적인 내용들은 다음과 같다.


Scalability

추천시스템을 학습하고 구축할 때 사용한 데이터와 실제 서비스를 통해 얻어지는 데이터는 상이할 수 있다. 단적인 예시로, 특정 상품에 대한 수요가 기존 트렌드에서 벗어나 단기간 내에 급증하게 될 경우(ex-마스크), 이를 고려하지 않고 구축된 서비스는 적절한 추천을 수행하지 못할 것이다.


Proactive Recommender System

추천시스템은 Push Information이 핵심 개념이다. 즉, 유저가 별도의 요구를 하지 않아도 항상 최적의 정보를 '물어다주는' 것이 필요하다. 하지만 그렇다고 시도때도 없이 추천을 하면 오히려 사용자 경험은 악화될 것이다. 이 둘 간의 적절한 타협점을 찾고 이를 서비스 내에 적절히 배치하는 것이 필요하다. 적절한 시기에 이루어지는 적절한 추천은 사용자의 추가 action을 유도하고 서비스를 지속적으로 사용하도록 만들 수 있다.


Cold-Start Problem

보통 추천서비스를 수행하기 위해서는 상당히 많은 데이터가 필요하다. 하지만 꽤나 많은 서비스에서는 이를 위한 충분한 데이터를 확보하지 못하는 경우가 많다. 새로운 유저 또는 아이템의 경우 Interaction 데이터가 부족하여 협업필터링을 적용하지 못하는 경우가 발생하며, 컨텐츠기반이나 지식기반으로 수행하는 경우에도 비슷한 문제가 발생할 수 있다. 이 문제는 또한 위의 Proactive Recommender System 문제와도 연관이 있는데, 새로운 유저에게 어떤 물품을 어떻게 선제적으로 추천할지를 고민하지 않는다면 새로운 유저에게는 추천이 되지 않을 것이고, 자연스럽게 유저 유입이 줄어들게 되는 상황을 초래할 수 있게 된다.


Privacy preserving Recommender System

개인화 추천을 위한 데이터 중 가장 좋은 데이터는 유저 개개인의 정보이다. 하지만 이는 개인정보보호 문제와 종종 충돌하게 되어 직접적으로 사용하기 어려운 경우가 많다. 유저의 학력 정보, 나이 등의 개인정보는 추천에 큰 도움이 될 수도 있지만, 앞서 말한 이유 때문에 사용하기 어려운 경우가 대다수이다. 따라서 데이터 수집과 개인정보 이슈 사이 적절한 중간점을 찾기 위한 노력이 필요하다.


Mobile devices & Usage Context

모바일 기기를 이용하여 서비스에 접속하는 경우가 많아짐에 따라 개인의 위치정보 등의 Context data를 바탕으로 추천을 수행할 수도 있다. 하지만 이를 개발하기 위해서는 꽤나 많은 고민과 노력이 필요하다.


Long-term & Short-term User Preference

유저가 만들어내는 데이터에는 장기 데이터와 단기 데이터가 공존한다. 이때 이중 어느것이 유저 선호도에 직접적인 영향을 미칠지 알 수 없다. 예를 들어 야구를 좋아하는 한 유저가 과거에는 A팀을 좋아했지만, 모종의 이유로 B팀을 좋아하는 사람이 되었을 때, 야구 용품을 구매하고자 하는 해당 유저에게 A팀의 상품을 추천해주는 문제가 발생할 수 있다는 것이다. 이는 어찌보면 당연한 한계일수도 있지만 학자들은 이 또한 해결하기 위해 꾸준히 노력하고 있다.


Generic User Model & Cross Domain Recommender System

하나의 모델을 여러 종류의 데이터에 적용하기가 어려운 경우가 많다. 즉, 데이터의 특성이 달라지면 추천시스템 자체가 힘을 잃는 경우가 많다는 것이다. 비슷한 도메인에 대해서도 데이터의 분포가 다르다면 동일한 성능을 기대하기가 어려워진다는 한계를 가진다.


Starvation & Diversity

Starvation이란, 필요한 컴퓨팅 자원을 꾸준히 가져오지 못하는 상황을 말한다. 유저와 아이템의 수가 늘어나면 이들이 만들어내는 데이터 또한 어마어마하게 늘어나게 되고, 이는 리소스의 부족으로 이어지곤 한다. 특히 기존 행렬 기반의 추천시스템에서는 이러한 문제가 더더욱 부각되었기에 이를 해결하기 위해 많은 연구가 수행되고 있다.


Long-Tail Economy

추천서비스의 대상이 되는 아이템의 경우 많은 경우에서 Long-Tail 현상이 발생한다. 이는 주목 받지 못하는 다수(Long-Tail)가 주목 받는 소수보다 더 많은 가치를 창출하는 것을 의미한다. 이 경우, 사실상 가치는 Long-Tail에서 나오지만, 추천시스템은 주목 받는 소수를 중심으로 하여 진행될 확률이 높다. 따라서 자칫하다가는 매출의 감소로 이어질 수도 있는 것이다. 이러한 '롱테일'을 잘 관리하는 것 또한 추천시스템이 풀어야 할 문제점 중 하나이다.