인과효과에서의 편향
편향(bias)은 인과관계와 상관관계를 다르게 만드는 요소이다. 인과추론에서는 데이터에서 추정하는 수치가 찾으려는 인과 추정량과 다른 경우 '추정량이 편향되었다'라고 표현한다. 편향은 추정량 $\hat{\beta}$에서 추정하려는 모수 $\beta$를 뺀 값의 기댓값이며, $Bias = E[\hat{\beta} - \beta]$로 표현할 수 있다. 이러한 편향을 이해하는 것은 인과효과를 식별하는 데에 중요한 역할을 하기 때문에 정확히 짚고 넘어갈 필요가 있다.
편향의 정의
평균 처치효과(ATE)를 추정하기 위해서는 실험군이 처치 받지 않았을 경우의 기댓값 $E[Y_0 | T = 1]$과, 대조군이 처치 받았을 경우의 기댓값 $E[Y_1 | T= 0]$을 추정해야 한다. 이때, 기본적으로 $E[Y_0]$로는 $E[Y|T=0]$을 사용하며 $E[Y_1]$로는 $E[Y|T=1]$을 사용하여 추정한다. 즉, $E[Y_t]$를 추정하기 위해 $E[Y|T=t]$를 사용하는 것이다. 만약 두 값이 일치하지 않는다면, 처치 t를 받은 실험 대상의 평균 결과인 $E[Y|T=t]$는 추정하고자 하는 값인 $E[Y_t]$의 편향 추정량(biased estimator)이 된다.
직관적인 예시를 들어보겠다. 계속해서 사용하고 있는 '할인 시나리오'에서, '가격 할인이 기업의 판매량을 x만큼 올린다'라는 주장에 대해 우리는 기업의 사이즈나 여유 등을 들어 반박할 수 있었다. 즉, 표본평균(sample mean)인 '할인한 기업의 $Y_0$'가 잠재적 결과의 평균(average potential outcome)인 '할인하지 않은 기업의 $Y_0$'보다 크다고 말할 수 있는 것이다. 이는 우리가 할인한 회사(실험군)와 할인하지 않은 회사(대조군)를 직접적으로 비교할 수 없는 한계 때문에 발생하는 문제이다.
편향의 수식적 이해
앞서 예로 든 할인 시나리오에서 처치와 결과 간의 상관관계는 할인을 진행한 기업의 판매량 기댓값에서 할인을 진행하지 않은 기업의 판매량 기댓값을 뺀 값, 즉 $E[Y|T=1]-E[Y|T=0]$으로 측정된다. 이와 달리 인과관계는 $E[Y_1-Y_0](E[Y|dot(t=1)]-E[Y|dot(t=0)])$으로 측정할 수 있다.
이제 관측된 결과, 즉 할인을 진행한 기업(실험군)의 평균 판매량에서 할인을 진행하지 않는 기업(대조군)의 평균 판매량을 뺀 값을 상관관계 측정값의 잠재적 결과 $E[Y|T=1]-E[Y|T=0]$로 대체해 보자.
$$E[Y|T=1]-E[Y|T=0]= E[Y_1|T=1]-E[Y_0|T=0]$$
이제 위 식에서 '실험군이 처치받지 않았다면'을 나타내는 반사실적 결과 $E[Y_0|T=1]$을 우변에 더하고 빼서($\pm$ 0) 식을 적어보도록 하자.
$$E[Y|T=1]-E[Y|T=0]= E[Y_1|T=1]-E[Y_0|T=0] + E[Y_0|T=1] - E[Y_0|T=1]$$
위 식을 정리하면 다음과 같은 결과를 얻을 수 있다.
$$E[Y|T=1]-E[Y|T=0]= E[Y_1|T=1]- E[Y_0|T=1] + E[Y_0|T=1]-E[Y_0|T=0]$$
$$= E[Y_1-Y_0|T=1] + E[Y_0|T=1]-E[Y_0|T=0]$$
이로써 우리는 실험군에 대한 평균 처치효과(ATT) $E[Y_1-Y_0|T=1]$와 편향 $E[Y_0|T=1]-E[Y_0|T=0]$를 얻을 수 있게 되었다. 이와 같은 수식을 편향식(bias equation)이라고 한다.
여기서 우리는 상관관계가 ATT에 편향을 더한 값임을 알 수 있다. 편향은 처치와 관계없이 실험군과 대조군이 어떻게 다른지($Y_0$의 차이)로 표현되므로 만약 편향이 0이 아니라면 인과관계와 상관관계는 다를 것이고, 편향이 0이라면, 즉 실험군과 대조군이 교환가능(exchangeable)하다면, 둘은 같을 것이다. 이러한 교환가능성은 인과추론의 핵심 가정 중 하나로, 잠재적 결과와 처치가 독립적이라는 독립성 가정(independence assumption)의 관점으로 설명되기도 한다. 이로써 인과관계와 상관관계 간의 차이를 수식적으로 이해할 수 있게 되었다.
실험군과 대조군의 차이는 우리가 인과모델에서 다루지 않은 다양한'관측할 수 없는 요인'에 의한 것으로, 이전 게시글에서 언급했던 $BusinessSize$와 같은 요소들 때문이다. 이러한 요소들을 교란 변수(confounder)라고 부르는데, 이는 나중에 자세하게 다뤄보도록 하겠다.
(이에 대한 글이 작성될 경우 링크 첨부)
편향의 시각화
이번엔 좀 더 직관적으로 편향을 이해해 보도록 하자. 다음은 할인 여부에 따른 주간 평균 매출(avg_week_sales)과 주간 판매량(weekly_amount_sold) 간의 관계를 시각화한 그림이다. (데이터는 여기에서 다운로드할 수 있다.)
해당 데이터에는 $BusinessSize$가 정확히 명시되어 있지 않지만, 일반적으로 기업의 규모가 크면 더 많은 평균 매출을 가지므로 주간 평균 매출로 이를 대체할 수 있다고 가정할 수 있다. 그런 관점에서 바라보았을 때, 할인을 진행한 기업(실험군)이 할인을 진행하지 않은 기업(대조군)보다 오른쪽, 즉 $BusinessSize$가 크다고 생각할 수 있다. 앞서 보인 복잡한 수식 없이도 $E[Y_0|T=1]>E[Y_0|T=0]$임을 제시하여 반박할 수 있는 직관적 근거가 될 수 있는 것이다.
여기서는 편향이 상관관계의 부호를 뒤집을 정도로 극단적이진 않아 $BusinessSize$를 통제하더라도 상관관계의 크기가 줄어드는 정도에 그치지만, '심슨의 역설(Simpson's paradox)'과 같이 어떤 변수를 보정했더니 상관관계의 부호가 뒤집혀서 이전에 양의 상관관계였던 결과가 음의 상관관계로 바뀌는 경우도 발생할 수 있다.
이와 같이 실험군과 대조군이 차이가 날 경우, 상관관계에는 처치효과뿐만 아니라 편향 또한 영향을 주게 되므로 편향은 진정한 처치효과를 파악하기 어렵게 만드는 요소 중 하나가 될 수 있다.
'인과추론' 카테고리의 다른 글
그래프 인과모델 (0) | 2024.05.30 |
---|---|
인과적 식별 (0) | 2024.05.28 |
처치 효과와 사실적/반사실적 결과 (0) | 2024.05.22 |
인과추론의 분석단위와 인과모델 (0) | 2024.05.20 |
인과관계와 인과추론 (0) | 2024.05.18 |
댓글