성장通

[리뷰] 실무로 통하는 인과추론 with 파이썬 본문

리뷰/도서 리뷰

[리뷰] 실무로 통하는 인과추론 with 파이썬

백악기작은펭귄 2024. 3. 23. 13:37

* 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

실무로 통하는 인과추론 with 파이썬

마테우스 파쿠레 지음
신진수, 가짜연구소 인과추론팀 옮김
박지용 감수

 

실무로 통하는 인과추론 with 파이썬 | 마테우스 파쿠레 - 교보문고

실무로 통하는 인과추론 with 파이썬 | 데이터 기반의 통찰력 있는 의사결정을 위한 인과추론, 효율적인 영향력 분석을 통한 성공적인 비즈니스 정책 결정온라인 마케팅 예산을 1달러 높이면 구

product.kyobobook.co.kr


간단 서평

'인과관계'는 일상에서도 자주 사용되는 단어이다. 하지만 이 인과관계라는 것은 생각보다 그렇게 만만히 볼 개념이 아니다. 예를 들어, 한 대형마트가 연말을 맞아 초특가 세일을 하는 경우를 살펴보자. 이러한 세일 이벤트를 진행하자 고객 수가 1.5배 증가했다면, 할인이 고객 수를 1.5배 증가시키는 '인과관계'가 있다고 이야기할 수 있을까? 조금 통찰력이 있는 사람들이라면 꼭 그렇진 않을 것이라는 답변을 했을 것이다. 연말 파티를 준비하기 위해 마트를 찾았을 수도 있고, 근처에서 연말 공연이 열려 공연을 본 김에 마트에 들러 물품을 샀을 수도 있다. 심지어는, 그날의 온도, 습도가 사람들을 마트로 가고 싶도록 만들었을 수도 있는 노릇이다! 즉, 정확한 인과관계를 알기 위해서는 해당 사건이 정확하게 같은 시간, 같은 공간, 같은 조건에서 딱 하나의 사건만이 바뀌어야 한다. 마치 우리가 중고등학교 때 배웠던 실험군과 대조군처럼 말이다.

 

하지만 이러한 것은 불가능하다. 어떻게 우리 집 앞 대형마트가 세일을 하는 상태와 세일을 하지 않는 상태가 공존한단말인가? 슈뢰딩거의 고양이도 아니고 말이다.. 그렇다면 우리는 이러한 '인과관계'를 어떻게 알 수 있을까? 세일이 고객 수 증가에 미치는 정확한 영향력을 어떻게 측정할 수 있을까? 이러한 물음들에 대한 답을 찾고자 하는 과정이 바로 '인과추론'이다.

 

이 책은 그러한 인과추론 단계를 수식과 파이썬 코드를 이용해서 이해하고, 계산해볼 수 있도록 하는 책이다. 하지만 이러한 이론과 동시에 실제 사례들 또한 함께 소개하며 독자의 이해를 돕는다. 데이터 엔지니어나 연구자는 물론이고, 기획자, 마케터 등 코딩과는 다소 거리가 멀어 보이는 직군에게도 강력한 인사이트를 주며 그 인사이트를 검증할 수 있는 인과추론이라는 강력한 도구를 쥐어준다. 이들은 이를 통해 마케팅 예산을 늘려달라고 상사를 설득할 수도 있고, 가격 책정 전략을 어떻게 수립해야 최대 효율의 수익을 올릴 수 있을지 알 수 있게 될 것이다.

 

다소 어려운 용어와 수식이 많이 나오지만 하나하나 뜯어서 쉽게 설명해주는 덕에 조금만 참고 보다 보면 문외한들에게도 그리 어렵지 않다. 그렇다고 마냥 쉽고 두리뭉실하지도 않아서 뜬구름 잡는 듯한 개념서와도 거리가 멀다. 이론과 실무 사이 적절한 지점을 정확히 짚어 깔끔하게 설명하고 있는 이 책은 연구 영역에서 주로 논의되던 인과추론의 개념을 좀 더 실무에 가까운 영역으로 끌어들였다. 이로써 우리는 인과추론이라는 개념에 좀 더 쉽게 접근할 수 있고 또 적절히 활용할 수 있게 되었다고 생각한다.

 

만약 당신이 어떤 형태로든 데이터 기반 사고가 필요한 직군에 있다면, 한번쯤은 꼭 읽어보면 좋을 것 같다.


목차

[PART 1 인과추론 기초]

 

1장 인과추론 소개
_1.1 인과추론의 개념
_1.2 인과추론의 목적
_1.3 머신러닝과 인과추론
_1.4 연관관계와 인과관계
_1.5 편향
_1.6 인과효과 식별하기
_1.7 요약

 

2장 무작위 실험 및 기초 통계 리뷰
_2.1 무작위 배정으로 독립성 확보하기
_2.2 A/B 테스트 사례
_2.3 이상적인 실험
_2.4 가장 위험한 수식
_2.5 추정값의 표준오차
_2.6 신뢰구간
_2.7 가설검정
_2.8 p 값
_2.9 검정력
_2.10 표본 크기 계산
_2.11 요약

 

3장 그래프 인과모델
_3.1 인과관계에 대해 생각해보기
_3.2 그래프 모델 집중 훈련
_3.3 식별 재해석
_3.4 조건부 독립성 가정과 보정 공식
_3.5 양수성 가정
_3.6 구체적인 식별 예제
_3.7 교란편향
_3.8 선택편향
_3.9 요약

 

[PART 2 편향 보정]

 

4장 유용한 선형회귀
_4.1 선형회귀의 필요성
_4.2 회귀분석 이론
_4.3 프리슈-워-로벨 정리와 직교화
_4.4 결과 모델로서의 회귀분석
_4.5 양수성과 외삽
_4.6 선형회귀에서의 비선형성
_4.7 더미변수를 활용한 회귀분석
_4.8 누락 변수 편향
_4.9 중립 통제변수
_4.10 요약

 

5장 성향점수
_5.1 관리자 교육의 효과
_5.2 회귀분석과 보정
_5.3 성향점수
_5.4 디자인 vs. 모델 기반 식별
_5.5 이중 강건 추정
_5.6 연속형 처치에서의 일반화 성향점수
_5.7 요약

 

[PART 3 이질적 효과와 개인화]

 

6장 이질적 처치효과
_6.1 ATE에서 CATE로
_6.2 예측이 답이 아닌 이유
_6.3 회귀분석으로 CATE 구하기
_6.4 CATE 예측 평가하기
_6.5 모델 분위수에 따른 효과
_6.6 누적 효과 곡선
_6.7 누적 이득 곡선
_6.8 목표 변환
_6.9 예측 모델이 효과 정렬에 좋을 때
_6.10 의사결정을 위한 CATE
_6.11 요약

 

7장 메타러너
_7.1 이산형 처치 메타러너
_7.2 연속형 처치 메타러너
_7.3 요약

 

[PART 4 패널데이터]

 

8장 이중차분법
_8.1 패널데이터
_8.2 표준 이중차분법
_8.3 식별 가정
_8.4 시간에 따른 효과 변동
_8.5 이중차분법과 공변량
_8.6 이중 강건 이중차분법
_8.7 처치의 시차 도입
_8.8 요약

 

9장 통제집단합성법
_9.1 온라인 마케팅 데이터셋
_9.2 행렬 표현
_9.3 통제집단합성법과 수평 회귀분석
_9.4 표준 통제집단합성법
_9.5 통제집단합성법과 공변량
_9.6 통제집단합성법과 편향 제거
_9.7 추론
_9.8 합성 이중차분법
_9.9 요약

 

[PART 5 대안적 실험 설계]

 

10장 지역 실험과 스위치백 실험
_10.1 지역 실험
_10.2 통제집단합성법 설계
_10.3 스위치백 실험
_10.4 요약

 

11장 불응과 도구변수
_11.1 불응
_11.2 잠재적 결과 확장
_11.3 도구변수 식별 가정
_11.4 1단계
_11.5 2단계
_11.6 2단계 최소제곱법
_11.7 표준오차
_11.8 통제변수와 도구변수 추가
_11.9 불연속 설계
_11.10 요약

 

12장 더 배울 내용
_12.1 인과관계 발견
_12.2 순차적 의사결정
_12.3 인과적 강화학습
_12.4 인과 예측
_12.5 도메인 적응
_12.6 요약

 

에필로그 실무에 인과추론 적용하기

 

찾아보기