교란편향
교란
인과추론에서 발생하는 편향의 주된 원인 중 하나는 교란(confounding)이다. 교란이란 처치와 결과가 공통 원인을 공유할 때 발생하는 것으로, 처치와 결과 사이 실제 인과효과가 없음에도 같이 움직이게 되는 현상을 의미한다. 이는 대게 비인과적으로 연관성이 흐르는 뒷문 경로가 있을 때 발생한다. 따라서 해당 인과효과를 식별하려면 처치와 결과 사이 모든 뒷문 경로를 닫는 것이 필요하다. 즉, 교란편향(confounding bias)을 보정하려면 처치와 결과 사이 공통 원인을 보정해야 한다. 하지만 이러한 보정이 항상 가능하지는 않다. 원인을 알 수 없거나, 원인을 알지만 측정할 수 없을 때는 보정이 어렵다.
대리 교란 요인
측정되지 않은 교란 요인 때문에 뒷문 경로 보정이 어려운 경우 모든 뒷문 경로를 닫을 수 없다. 예를 들어, 다음과 같은 경우 관측되지 않은 원인 $U$는 처치 $T$와 결과 $Y$에 모두 영향을 주고 있기 때문에 둘 사이 교란이 발생하며, $U$는 측정할 수 없기 때문에 교란편향이 일어나 인과효과를 식별할 수 없게 된다.

하지만 이러한 교란 요인인 $U$에 대해 대리변수로 사용할 수 있는 원인 $X_1$이 존재할 경우 이를 통제하여 편향을 줄일 수 있다. 이러한 변수를 대리 교란 요인(surrogate confounder)이라고 한다.
랜덤화
연구적으로 교란편향은 배제하기 어렵고 다소 복잡한 문제이지만 실무에서는 비교적 이를 해결하기 쉽다. 실무에서는 통제할 수 있는 요소의 인과효과를 파악하고 최적화하는 것이 최우선 목표이며 이 경우 일반적으로 처치를 배정함에 어떤 정보를 사용했는지 알기 쉽기 때문에 교란 요인을 파악하기 쉽다.
또한, 다음과 같이 랜덤화를 통해 처치를 무작위로 배정하면(ex-A/B 테스트) 관측할 수 없는 교란 요인이 처치에 주는 영향을 배제할 수 있게 된다.

민감도 분석과 부분 식별
모든 공통 원인을 측정할 수 없을 때, 질문을 '나는 현재 모든 교란요인을 측정하고 있는가?'에서 '측정되지 않은 교란요인이 분석 결과를 크게 바꾸려면 얼마나 강력해야 하는가'로 바꿔보면 도움이 될 때가 있다. 이를 민감도 분석(sensitivity analysis)이라고 한다. 민감도 분석은 분석 결과가 특정 가정이나 변수에 얼마나 민감한지를 평가하는 방법으로, 이를 통해 연구 결과가 교란변수에 의해 얼마나 영향을 받을 수 있는지를 이해하고 결과의 신뢰성을 평가할 수 있다.
민감도 분석은 다음과 같은 방식으로 수행된다.
- 잠재적 교란변수의 식별: 분석에서 고려하지 않은 잠재적 교란변수를 식별한다. 이는 도메인 지식이나 사전 연구를 통해 이루어질 수 있다.
- 교란의 크기 및 방향 가정: 잠재적 교란변수가 분석 결과에 미치는 영향을 가정한다. 이는 교란변수가 독립변수와 종속변수 간의 관계에 미치는 효과의 크기와 방향을 설정하는 것을 의미한다.
- 시뮬레이션 및 모델링: 가정한 교란변수의 효과를 분석 모델에 적용하여 결과가 어떻게 변하는지를 시뮬레이션한다. 이를 통해 특정 가정 하에서 결과가 얼마나 변하는지를 평가한다.
- 결과 평가: 민감도 분석 결과를 통해 연구 결과가 교란변수에 얼마나 민감한지를 평가한다. 만약 결과가 큰 변화를 보인다면, 교란변수가 실제로 중요한 역할을 할 가능성이 높다.
예를 들어, 약물의 효과를 평가하는 연구에서 민감도 분석을 수행할 때, 연구자는 특정 잠재적 교란변수(예: 환자의 나이, 기존 건강 상태 등)가 약물 효과에 미치는 영향을 가정하고, 이 변수들을 모델에 포함하여 결과가 어떻게 변하는지를 평가할 수 있다. 이를 통해 연구 결과가 얼마나 견고한지, 즉 특정 교란변수가 결과를 얼마나 왜곡할 수 있는지를 판단할 수 있게 된다.
또, 관심 있는 인과 추정량을 정확히 식별할 수 없을 때 관측 가능한 데이터를 사용하여 주변 경계를 설정할 수 있다. 이 과정을 부분 식별(partial identification)이라고 한다. 이는 불확실성이나 데이터의 제약으로 인해 특정 인과 효과를 정확하게 추정할 수 없는 상황에서 효과의 가능한 범위를 좁히고, 그 범위 내에서 결론을 도출하는 접근법이다.
부분 식별은 다음과 같은 방식으로 진행된다.
- 인과 효과의 범위 설정: 데이터와 모델을 이용하여 특정 인과 효과가 포함될 수 있는 범위를 설정한다.
- 비판적 가정 설정: 완전한 식별이 불가능한 상황에서는 몇 가지 비판적 가정을 설정하여 분석을 진행한다.
- 불확실성 인정: 부분 식별에서는 특정 인과 효과에 대한 정확한 추정치를 제공하기보다는, 해당 효과가 존재할 수 있는 범위를 제시한다. 이를 통해 연구 결과의 불확실성을 명확히 인식하고, 과신을 피할 수 있다.
- 데이터의 제한적 사용: 완전한 식별이 어려운 경우, 부분 식별을 통해 가능한 한 주어진 데이터 내에서 최대한의 정보를 추출한다. 이는 데이터의 제약 속에서도 유의미한 결론을 도출할 수 있게 한다.
예를 들어, 정책의 효과를 평가할 때 데이터의 제약으로 인해 정확한 효과 추정이 어려운 경우, 부분 식별을 통해 정책 효과의 상한과 하한을 설정하여 정책의 잠재적 영향을 평가할 수 있다.
2024/06/25 추가
어제, 학교 동기이자 하이퍼커넥트와 팀러너스에서 ML 소프트웨어 엔지니어로 일하셨던 조건우 님과 커피챗을 하며 Causal Discovery의 개념에 대한 이야기를 들었다. SCM을 생성할 때, 가장 휴리스틱 한 방법은 모든 팩터를 Fully-connected 시켜놓고, 특정 팩터에 intervention을 가했을 때 다른 팩터가 얼마나 변하는지를 파악하여 엣지를 프루닝 시키는 방법이라고 했다. 이 내용이 민감도 분석과 조금 유의한 부분이 있지 않을까라는 생각을 했다.
'인과추론' 카테고리의 다른 글
인과 그래프모델을 통한 식별의 재해석 (1) | 2024.06.05 |
---|---|
NetworkX로 그래프 쿼리하기 (0) | 2024.06.03 |
그래프 인과모델 (0) | 2024.05.30 |
인과적 식별 (0) | 2024.05.28 |
인과효과에서의 편향 (1) | 2024.05.24 |
댓글