인과관계와 인과추론
일상에서, 인과관계(causation)는 종종 상관관계(correlation)와 혼동되곤 한다. 하지만 통계학을 비롯한 학문적인 영역에서 이 두 개념을 혼동한다면 큰 비판을 받을 수 있다. 물론 상관관계가 인과관계가 될 수는 있지만, 모든 상관관계가 인과관계는 아니기 때문이다. 간단하게 말하자면, 상관관계는 몇 개의 수치나 확률변수(random variable)가 특정 패턴을 보이며 같이 움직이는 것이며, 인과관계는 어떤 변수가 다른 변수의 변화를 야기하는 것이다. 즉, 인과관계에는 선후관계가 존재하며 원인과 결과의 관계를 가진다.
인과추론(causal inference)은 이러한 상관관계로부터 인과관계를 추론하고, 언제, 그리고 왜 둘이 서로 다른지를 이해하는 과학이라고 할 수 있다. 이는 최근 데이터 내에 존재하는 통계적 속성을 주로 활용하는 머신러닝 기법들의 한계를 해결하고 더 나은 예측을 할 수 있도록 하고자 연구되기도 하며, '믿을 수 있는 인공지능'에 대한 수요가 늘어남에 따라 다시금 주목받고 있는 분야이다.
인과추론의 목적
앞서 언급하였듯이, 인과추론의 목적은 변수 사이 관계를 이해하고 분석하는 것이다. 이는 일차적으로는 데이터 내에 존재하는 어떤 통찰을 얻을 수 있도록 하며, 추가적으로는 의사결정 과정에 있어 기준을 제시하기도 한다. 예를 들어, 마케팅 비용을 x원 올리면 회사 매출이 얼마나 증가할지라든가, 학생들의 시험 점수를 올리려면 어떤 것을 제공해야 하는지 등의 사례를 생각해 볼 수 있다. 즉, 원인과 결과 간의 관계를 알아내고 원인에 얼마나, 어떻게 개입(intervention)하였을 때 결과가 얼마나 변하는지를 알 수 있을 때 우리는 적절한 개입을 통해 원하는 결과를 가져올 수 있다는 것이다.
머신러닝과 인과추론
인과추론으로 답을 얻고자 하는 문제의 대부분은 '만약 ~라면(what if)'과 같은 형태를 띠고 있는 문제이다. 최근 대부분의 데이터 기반 의사결정에서는 작게든 크게든 머신러닝이 도입되곤 하는데 이는 머신러닝의 강력한 예측 능력을 활용하기 위해서이다. 하지만 안타깝게도 머신러닝은 이러한 what if 문제에 취약함을 보인다. 그냥 단순하게 알고자 하는 원인에 조금 변화를 주면 되는 것 아닌가라고 생각하기 쉽지만, 결론은 그렇지 않다는 것이다.
예를 들어, 한 대형마트가 연말을 맞아 초특가 세일을 하는 경우를 살펴보자. 이러한 세일 이벤트를 진행하자 고객 수가 1.5배 증가했다면, 머신러닝 모델은 더 많은 세일을 하면 더 많은 고객이 올 것이라고 예측할 것이다. 물론 맞는 예측이 될 수도 있지만 반드시 그러한 인과관계가 있다고 하기는 어렵다. 초특가 세일이 이루어진 연말에 많은 고객들이 연말 파티를 준비하기 위해 마트를 찾았을 수도 있고, 근처에서 연말 공연이 열려 공연을 본 김에 마트에 들러 물품을 샀을 수도 있다. 심지어는, 그날의 온도, 습도가 사람들을 마트로 가고 싶도록 만들었을 수도 있는 노릇이다.
좀 더 극단적으로는, 숙박업체가 비수기에 저렴한 가격으로 방을 제공했을 때보다 성수기에 비싼 가격으로 방을 제공했을 때 고객 수가 더 많다면 머신러닝 모델은 가격을 올리면 고객 수가 증가하리라는 정말 이상한 결과를 낼 수도 있을 것이다.
이처럼 여러 변수 간의 관계를 모델링하여 결과를 계산하는 머신러닝의 경우 인위적인 개입이 동반되었을 때에도 반드시 잘 작동하리라는 보장이 없다. 하지만 머신러닝을 단순 예측 도구가 아닌 강력한 데이터 모델링 도구라는 관점에서 접근한다면 인과추론의 목표 달성에 있어 큰 도움을 줄 수도 있다. 이처럼 머신러닝과 인과추론을 어떻게 하면 함께 사용할 수 있을지, 또 그 과정에서 주의해야 할 점은 무엇인지 알아보고, 일반적인 머신러닝 알고리즘이 인과추론 활용을 위해 어떻게 바뀌는지 알아보기 위해, 인과추론의 개념부터 차근차근 짚어보도록 하자.
'인과추론' 카테고리의 다른 글
그래프 인과모델 (0) | 2024.05.30 |
---|---|
인과적 식별 (0) | 2024.05.28 |
인과효과에서의 편향 (1) | 2024.05.24 |
처치 효과와 사실적/반사실적 결과 (0) | 2024.05.22 |
인과추론의 분석단위와 인과모델 (0) | 2024.05.20 |
댓글