인과추론

인과적 식별

백악기작은펭귄 2024. 5. 28.
반응형

인과적 식별

이전 게시글의 수식적 이해로부터, 정확한 인과효과를 계산하기 위해서는 상관관계와 인과관계가 교환가능하게 만들어야 한다는 것을 알았다. 이를 만족하려면 어떻게 해야 할까? 인과추론의 단계를 생각해 보고 그 방법에 대해서 알아보도록 하자.

 

랜덤화와 식별

인과추론 문제는 보통 관측 가능한 데이터로 인과 추정량을 표현하는 방법을 알아내는 식별(identification) 단계실제 데이터를 사용하여 앞서 식별한 인과 추정량을 추정하는 추정(estimation) 단계로 나눌 수 있다.

 

인과추론에 있어서 우리는 각 실험 대상에 대해 한 가지 잠재젹 결과만을 관찰 가능하다는 점에서 모든 문제가 시작됨을 기억하자. 이때 처치의 배정이 어떻게 이루어졌는지를 알기 어렵기 때문에 식별이 어려워진다. 하지만 만약 이러한 처치를 랜던하게 배정할 수 있다고 가정한다면 어떨까? 이와 같이 처치의 무작위 배정을 랜덤화(randomize)라고 한다. 예를 들어, 기업들이 가격할인을 할지 여부를 우리가 랜덤 하게 배정할 수 있는 권한이 있다고 가정하자. 이때 발생하는 처치 배정의 변화는 인과 메커니즘의 다른 요인과는 완전히 무관하다.

 

$$IsOnSales \leftarrow rand(t)$$
$$AmountSold \leftarrow f_y(IsOnSales, u_y)$$

 

앞의 $IsOnSales$에 대한 처치 효과식을 보면, 랜덤화에서는 처치 배정 메커니즘이 완전히 알려졌기 때문에 외부변수 $u_t$가 사라졌음을 확인할 수 있다. 또한 실험 대상에 대한 처치가 무작위로 이루어지므로 잠재적 결과는 물론이고 어떤 변수와도 독립적이 된다. 이처럼 랜덤화는 독립성 가정을 거의 강제적으로 만족하도록 할 수 있다.

 

각 실험 대상에 대한 잠재적 결과를 나타낸 그래프에서 무작위로 처치 여부를 배정한 뒤, 실현되지 않은 잠재적 결과를 제거하면 실험군과 대조군을 비교할 수 있다. 이때의 둘의 차이는 처치에 의해서만 발생되므로 ATT와 동일하다. 따라서 편향을 배제할 수 있게 된다.

 

이때 처치 여부가 다른 요인에 의해 결정되거나, 한 가지 처치 상태에 대한 결과만을 확인할 수 있다면 우리는 실험군과 대조군의 차이를 알 수 없을 것이다. 이것이 바로 인과적 식별의 가장 어려운 부분이다. 인과적 식별이란 결국, 편향을 제거하고 실험군과 대조군을 비교할 수 있게 만드는 방법을 찾아 처치에 의한 효과만을 남기는 과정이다. 여기서 식별은 데이터 생성 과정을 알거나, 가정에 무리가 없는 경우에만 가능하다. 즉, 일반적으로 처치가 어떻게 배정되었는지를 알 수 있을 때 식별이 가능하며 이는 데이터뿐만 아니라 도메인 지식으로 배정 원리를 알아내거나 개입을 통해 처치를 인위적으로 배정할 때 가능하다.

 

A/B 테스트의 해석 오류

무작위로 처치를 배정하는 것의 대표 사례는 A/B 테스트이다. 추후 자세히 설명하겠지만, A/B 테스트란 전체 사용자를 대상으로 실험군과 대조군을 나누고 특정 처치의 효과를 확인하는 방법이다. 이러한 A/B 테스트를 진행하고 해석함에 있어, 해석 오류가 발생할 수 있는 사례를 들어보도록 하겠다.

한 쇼핑몰에서 유료 멤버십 프로그램을 시행하기로 했다. 해당 멤버십은 더 높은 할인율, 빠른 배송, 반품 수수료 면제 등의 혜택을 부여하여 사용자들의 소비를 촉진하는 것을 기대하고 만들어진 프로그램이다. 회사는 이 멤버십 프로그램의 효과를 파악하고자 무작위로 표본을 추출한 뒤 일부 고객에게만 멤버십 가입이 가능한 페이지를 공개하기로 하였다. 얼마 후 확인해 보니 멤버십 프로그램에 참여한 고객이 대조군(멤버심 프로그램 페이지가 노출되지 않은 고객)에 비해 더 많은 구매를 하고 있음을 파악했으며 CS에 소모되는 시간 또한 단축되었음을 알 수 있었다. 이에 회사는 멤버십 프로그램이 매출 증가와 CS 소모 시간 단축에 효과적이었다고 판단하였다.

 

이 예시 사례는 인과추론에 대해 깊이 있게 생각해보지 않았다면 자칫 함정에 빠질 수 있는 사례이다. 어떤 부분에서 함정이 있었는지 살펴보자.

 

먼저, 회사는 무작위 고객 그룹(실험군)에게 멤버십 페이지를 노출하였다. 여기서 이 무작위 노출이 '멤버십 가입'이라는 처치에 대한 랜덤화라고 착각할 수 있다. 하지만 사실 이 랜덤화의 대상이 되는 처치는 '멤버십 페이지 노출'이다. 멤버십 페이지의 노출이 반드시 멤버십 가입으로 이어지지는 않기 때문이다. 즉, 멤버십 프로그램의 참여 자격을 가진 고객은 무작위로 선정하였지만 프로그램의 참여는 고객의 선택이기 때문이다. 예를 들어 이미 해당 쇼핑몰에서 많은 구매를 하고 있고 노하우가 쌓여 고객문의에 시간을 많이 사용하지 않아도 되는 고객들이 멤버십 가입의 대상이 되었을 수 있다. 따라서, 멤버십에 참여한 고객과 참여하지 않은 고객은 비교가 불가능하다.

 

이와 같이, 인과추론은 편향으로 인한 오해를 제거하고 세상의 동작원리인 인과효과를 식별하는 학문이며 다양한 분야에서 강력한 도구로 작용할 수 있게 된다. 이를 이해하고 적용함으로써 문제 해결의 인사이트를 얻을 수 있게 되며 정확한 원인 분석이 가능하게 된다.

반응형

'인과추론' 카테고리의 다른 글

NetworkX로 그래프 쿼리하기  (0) 2024.06.03
그래프 인과모델  (0) 2024.05.30
인과효과에서의 편향  (1) 2024.05.24
처치 효과와 사실적/반사실적 결과  (0) 2024.05.22
인과추론의 분석단위와 인과모델  (0) 2024.05.20

댓글