편향2 인과효과에서의 편향 인과효과에서의 편향편향(bias)은 인과관계와 상관관계를 다르게 만드는 요소이다. 인과추론에서는 데이터에서 추정하는 수치가 찾으려는 인과 추정량과 다른 경우 '추정량이 편향되었다'라고 표현한다. 편향은 추정량 $\hat{\beta}$에서 추정하려는 모수 $\beta$를 뺀 값의 기댓값이며, $Bias = E[\hat{\beta} - \beta]$로 표현할 수 있다. 이러한 편향을 이해하는 것은 인과효과를 식별하는 데에 중요한 역할을 하기 때문에 정확히 짚고 넘어갈 필요가 있다. 편향의 정의평균 처치효과(ATE)를 추정하기 위해서는 실험군이 처치 받지 않았을 경우의 기댓값 $E[Y_0 | T = 1]$과, 대조군이 처치 받았을 경우의 기댓값 $E[Y_1 | T= 0]$을 추정해야 한다. 이때, 기본적으로 .. 인과추론 2024. 5. 24. 데이터 인식 데이터 인식데이터의 요약과 통계는 데이터 자체의 특성을 잘 드러내기는 하나, 잠재적인 문제를 발견하기에는 다소 부족한 면이 있다. TFDV가 어떻게 데이터에서 잠재적인 문제를 발견하고 어떤 도움을 줄 수 있는지 알아보도록 하자.데이터셋 비교머신러닝의 데이터셋에는 훈련 세트와 검증 세트가 있다. 검증 데이터는 학습 데이터로 학습된 모델이 제대로 학습되었는지를 검증하는 역할을 하기 때문에, 둘의 대표성이 동등해야 한다. 검증 데이터의 스키마가 학습 데이터와 같은지, feature의 열 또는 값이 유의미한 수준으로 누락되었는지 등을 살펴보고 이를 처리할 수 있는 방법이 필요하다. TFDV는 이러한 질문에 빠르게 답을 줄 수 있다. 다음과 같은 방식을 이용해 두 데이터셋을 불러와 통계를 비교해보자.train_s.. MLOps 2021. 12. 31. 이전 1 다음