인과추론9 교란편향 교란편향교란인과추론에서 발생하는 편향의 주된 원인 중 하나는 교란(confounding)이다. 교란이란 처치와 결과가 공통 원인을 공유할 때 발생하는 것으로, 처치와 결과 사이 실제 인과효과가 없음에도 같이 움직이게 되는 현상을 의미한다. 이는 대게 비인과적으로 연관성이 흐르는 뒷문 경로가 있을 때 발생한다. 따라서 해당 인과효과를 식별하려면 처치와 결과 사이 모든 뒷문 경로를 닫는 것이 필요하다. 즉, 교란편향(confounding bias)을 보정하려면 처치와 결과 사이 공통 원인을 보정해야 한다. 하지만 이러한 보정이 항상 가능하지는 않다. 원인을 알 수 없거나, 원인을 알지만 측정할 수 없을 때는 보정이 어렵다. 대리 교란 요인측정되지 않은 교란 요인 때문에 뒷문 경로 보정이 어려운 경우 모든 뒷.. 인과추론 2024. 6. 24. 인과 그래프모델을 통한 식별의 재해석 인과 그래프모델을 통한 식별의 재해석인과관계 식별은 그래프 모델에서의 독립성과 밀접한 관련이 있다. 처치, 결과, 기타 변수 간의 인과관계를 나타내는 그래프가 있는 경우, 식별은 해당 그래프에서 처치와 결과 간의 인과관계를 분리하는 과정이라고 볼 수 있다. 그래프에서 처치와 결과 간에 연관성 경로 중 인과관계로 인한 연관성 경로를 제외한 경로를 비인과 경로(non-causal path) 혹은 뒷문 경로(backdoor path)라고 한다. 이러한 비인과 경로의 존재는 편향이 있음을 나타내므로 조건부 독립성 가정을 통해 이로 인한 비인과성 흐름을 차단해 인과 경로만을 남겨야 한다. 조건부 독립성 가정과 보정 공식조건부 독립성 가정(Conditional Independence Assumption, CIA)은.. 인과추론 2024. 6. 5. NetworkX로 그래프 쿼리하기 NetworkX로 그래프 쿼리하기인과 그래프모델에서는 종속성의 흐름을 파악하는 것이 매우 중요하다. 이를 식별하는 것은 인과성의 파악의 매우 중요한 것으로, 많이 연습하여 익숙해질 필요가 있다. 그런데, 이러한 종속성 흐름을 파이썬 라이브러리인 NetworkX로 쉽게 쿼리 할 수 있다. 그 방법에 대해 알아보도록 하자. NetworkX 소개NetworkX는 복잡한 네트워크의 구조, 역학 및 기능을 생성하고 조작하며 연구하기 위한 Python 패키지이다. 이 소프트웨어는 그래프(Graph), 유향 그래프(Digraph) 및 다중 그래프(Multigraph)를 위한 데이터 구조를 제공하며, 다양한 표준 그래프 알고리즘, 네트워크 구조 및 분석 측정 기능을 갖추고 있다. 또한 NetworkX는 고전 그래프, .. 인과추론 2024. 6. 3. 그래프 인과모델 그래프 인과모델구조적 인과모델(Structural Causal Model, SCM)은 인과추론의 통일된 언어 표현이다. 이 SCM은 그래프와 인과 방정식(causal equation)으로 구성된다. 그중 그래프 모델은 인과추론 문제를 구조화하고 식별 가정을 시각화할 수 있는 기법이다. 이 그래프 모델에 대해서 알아보도록 하자. 인과관계 시각화처치가 무작위 배정되는 상황, 즉 처치가 잠재적 결과와 독립적이며 인과관계와 상관관계가 교환가능한 상황을 생각해 보자. $$E[Y_1-Y-0] = E[Y|T=1]-E[Y|T=0]$$이러한 정보는 위 수식으로 나타낼 수도 있지만 그래프로 시각화할 수도 있다. 해당 과정에서 처치에는 랜덤화 노드를 추가하여 무작위 배정을 나타낼 수 있으며, 관측되지 않은 변수 또한 그래프.. 인과추론 2024. 5. 30. 인과적 식별 인과적 식별이전 게시글의 수식적 이해로부터, 정확한 인과효과를 계산하기 위해서는 상관관계와 인과관계가 교환가능하게 만들어야 한다는 것을 알았다. 이를 만족하려면 어떻게 해야 할까? 인과추론의 단계를 생각해 보고 그 방법에 대해서 알아보도록 하자. 랜덤화와 식별인과추론 문제는 보통 관측 가능한 데이터로 인과 추정량을 표현하는 방법을 알아내는 식별(identification) 단계와 실제 데이터를 사용하여 앞서 식별한 인과 추정량을 추정하는 추정(estimation) 단계로 나눌 수 있다. 인과추론에 있어서 우리는 각 실험 대상에 대해 한 가지 잠재젹 결과만을 관찰 가능하다는 점에서 모든 문제가 시작됨을 기억하자. 이때 처치의 배정이 어떻게 이루어졌는지를 알기 어렵기 때문에 식별이 어려워진다. 하지만 만약 .. 인과추론 2024. 5. 28. 인과효과에서의 편향 인과효과에서의 편향편향(bias)은 인과관계와 상관관계를 다르게 만드는 요소이다. 인과추론에서는 데이터에서 추정하는 수치가 찾으려는 인과 추정량과 다른 경우 '추정량이 편향되었다'라고 표현한다. 편향은 추정량 $\hat{\beta}$에서 추정하려는 모수 $\beta$를 뺀 값의 기댓값이며, $Bias = E[\hat{\beta} - \beta]$로 표현할 수 있다. 이러한 편향을 이해하는 것은 인과효과를 식별하는 데에 중요한 역할을 하기 때문에 정확히 짚고 넘어갈 필요가 있다. 편향의 정의평균 처치효과(ATE)를 추정하기 위해서는 실험군이 처치 받지 않았을 경우의 기댓값 $E[Y_0 | T = 1]$과, 대조군이 처치 받았을 경우의 기댓값 $E[Y_1 | T= 0]$을 추정해야 한다. 이때, 기본적으로 .. 인과추론 2024. 5. 24. 처치 효과와 사실적/반사실적 결과 처치 효과와 사실적/반사실적 결과인과모델이 있다면 해당 모델을 고치고 개선하여 인과적 질문에 대한 답을 얻을 수 있다. 이때 이와 같은 의도적 수정을 개입(intervention)이라고 한다. 이와 같이 인과모델에 개입하였을 때 발생하는 현상을 처치 효과(treatment effect)라고 하며, 이로 인해 일어나는 결과를 사실적 결과(factual outcome)이라고 한다. 이번에는 이러한 처치 효과와 사실적 결과, 그리고 그에 대응하는 반사실적 결과(counterfactual outcome)에 대해서 알아보도록 하자. 개입앞서, 개입이란 인과모델에 의도적인 수정을 가하는 것을 의미한다고 설명하였다. 예를 들어, 모든 실험 대상이 $t_0$라는 처치를 받도록 개입할 수 있다. $$T \leftarro.. 인과추론 2024. 5. 22. 인과추론의 분석단위와 인과모델 인과추론의 분석단위와 인과모델인과추론 연구에서 분석단위(unit of analysis)는 일반적으로 개입(처치)하려는 대상이다. 이전 게시글에서 개입(intervention)에 대해서 간단하게 이야기했지만, 개입이 무엇인지 정확히 알아볼 필요가 있다. 이번 게시글에서는 개입 혹은 처치에 대해서 알아볼 것이고, 또한 인과추론에서 사용되는 공식 표기법인 인과모델에 대해서 알아볼 것이다. 처치와 결과온라인 커머스 기업에서, 가격할인이 판매량에 미치는 영향을 알아보고자 인과추론을 활용하는 시나리오를 생각해 보자. 품목이나 그 특성에 따라 조금 복잡해질 수 있으니, 여기서는 문제를 더 단순화해서, '12월 크리스마스 이전 기간의 장난감 판매 기업에서의 가격할인과 판매량 사이 인과관계 추론' 시나리오를 가정해 보도.. 인과추론 2024. 5. 20. 인과관계와 인과추론 인과관계와 인과추론일상에서, 인과관계(causation)는 종종 상관관계(correlation)와 혼동되곤 한다. 하지만 통계학을 비롯한 학문적인 영역에서 이 두 개념을 혼동한다면 큰 비판을 받을 수 있다. 물론 상관관계가 인과관계가 될 수는 있지만, 모든 상관관계가 인과관계는 아니기 때문이다. 간단하게 말하자면, 상관관계는 몇 개의 수치나 확률변수(random variable)가 특정 패턴을 보이며 같이 움직이는 것이며, 인과관계는 어떤 변수가 다른 변수의 변화를 야기하는 것이다. 즉, 인과관계에는 선후관계가 존재하며 원인과 결과의 관계를 가진다. 인과추론(causal inference)은 이러한 상관관계로부터 인과관계를 추론하고, 언제, 그리고 왜 둘이 서로 다른지를 이해하는 과학이라고 할 수 있다... 인과추론 2024. 5. 18. 이전 1 다음