인과추론

[인과추론] Randomization

W[더블유] 2022. 4. 26. 04:37

 

첫번째 주제인 "Randomization" 입니다. 정책을 받는 집단과 그렇지 않은 집단을 임의로 나누어야 하는 이유에 대한 설명입니다. 흔히, "인과관계와 상관관계가 다르다"는 구절에서, 상관관계가 "문제"가 있는 이유 (상관관계를 통해서 특정 정책의 효과를 추론할 수 없는 이유)는 두 집단 사이의 특징이 애초에 다르기 때문입니다. 가상의 예시를 통해서 우리가 알고 싶은 효과와 두 집단 사이의 내재된 차이를 수식적으로 구분해보도록 해보겠습니다. 아래 사례는 "고수들의 계량경제학 (Mastering Metrics)" 의 예시의 구조를 한국적으로 각색했습니다 (미국 의료 보험 수급 여부 대신 고등학교 1학년의 영어 과외로 바꿔보았습니다). 

 

영어 과외가 (고등학교 1학년) 학생들의 성적에 미치는 영향을 알고 싶다고 합니다. 철수는 과외를 받았고, 영희는 과외를 받지 않았다고 해봅시다. 

 

정책의 인과적 효과를 수식적으로 다음과 같이 표현할 수 있습니다 (i 학생이 과외를 받았을 때와 받지 않았을 때의 차이):  

$Y_{1i} - Y_{0i} $

 

  철수 영희
과외 없이 잠재적 영어 점수 ($Y_{0i}$) 70 85
과외 시 잠재적 영어 점수 ($Y_{1i}$) 80 90
과외 여부 1 0
실제 영어 점수 80 85
과외 효과 10 5

 

하지만 단순희 과외를 받은 철수와 받지 않은 영희의 점수 차이를 구하면 실제와는 다른 결과가 나타납니다. 

$Y_{철수} - Y_{영희} = Y_{1,철수} - Y_{0,영희} $

$= [Y_{1,철수} - Y_{0,철수}] + [Y_{0,철수} - Y_{0,영희}] $

 

(여기서 첫번째 괄호는 과외의 인과적 효과이지만, 두번째 괄호는 과외 이전 철수와 영희 사이의 (내재된) 성적의 차이입니다.)

 

$= [80 - 70] + [70 - 85] $

$= 10 + (-5) = -5 $

 

철수와 영희 모두에게 과외 효과가 나타나지만, 철수와 영희 사이의 내재된 성적의 차이 (선택편의, selection bias) 를 고려하지 못하면, 영어 과외가 학생의 성적에 부정적인 영향을 준다는 잘못된 결론을 도출하게 됩니다.

 

그렇다면, 전체의 평균을 구하면, 이러한 선택편의가 사라질까요? (결론부터 말하자면, 그렇지 않습니다.)

 

과외를 받으면 $D_i = 1$, 받지 않으면 $D_i = 0$ 으로 정의하고, $n$ 명인 (학생)그룹의 (성적)평균값을 $Avg_n [ Y_ i ] = \frac{1}{n} \sum_{i=1}^n Y_i$ 로 정의합니다.

 

과외를 받는 학생들과 과외를 받지 않는 학생들 간의 평균 차이

$= Avg_n [Y_i | D_i = 1] - Avg_n [Y_i | D_i = 0] $

$= Avg_n [Y_{1i} | D_i = 1] - Avg_n [Y_{0i} | D_i = 0] $

$= Avg_n [Y_{1i} | D_i = 1] - Avg_n [Y_{0i} | D_i = 1] + Avg_n [Y_{0i} | D_i = 1] - Avg_n [Y_{0i} | D_i = 0] $

 

에서, 모든 사람들에게 과외의 효과가 동일하다면$= Avg_n [Y_{1i} | D_i = 1] - Avg_n [Y_{0i} | D_i = 1] = Avg_n [Y_{1i} | D_i = 0] - Avg_n [Y_{0i} | D_i = 0] = \gamma $,

 

과외를 받는 학생들과 과외를 받지 않는 학생들 간의 평균 차이

실제 효과 ($\gamma$) + 선택편의 ($Avg_n [Y_{0i} | D_i = 1] - Avg_n [Y_{0i} | D_i = 0] $) 가 됩니다. 

 

과외를 받은 학생들 100명의 성적과 과외를 받지 않은 학생들 100명의 성적이 있다고 했을 때, 이 둘의 평균을 빼면, 과외의 효과를 추정하는 것일까요? 위의 수식에 따르면, 과외의 효과와 함께, 과외를 받은 학생들과 그렇지 않은 학생들 사이에 내재된 차이가 있다면, 그러한 내재된 차이(선택 편의)가 두 그룹 간 평균의 차이에 반영이 되었음을 알 수 있습니다. 예를 들어, 과외를 받은 학생들이 그렇지 않은 학생들에 비해 부모님의 소득 수준이 더 높다면, 소득 수준이 높음에 따라서 발생하는 성적 상승 기여분이 두 집단의 차이에 반영되어 있음을 알 수 있습니다. 이러한 가정에서는, 두 집단 간의 평균은 실제 과외의 효과를 과다추정하게 됩니다. 반대로, 과외를 받는 학생들이 그렇지 않은 학생들에 비해 내재된 성적이 낮은 경우도 생각해볼 수 있습니다. 예를 들어, 중학교 때 성적이 낮은 학생들이 그렇지 않은 학생들에 비해 성적 개선을 위해 고등학교 1학년 진학 후 과외를 더 받았다고 가정하면, 두 집단의 평균 차이는 실제 과외의 효과를 과소추정하게 됩니다. 따라서, 이러한 문제를 해소하는 가장 좋은 방법은 "과외 여부"를 임의로 배분하는 것입니다. 

 

추후에 시간이 나게 되면, 실험과 관련된 테크 블로그의 사례들을 찾아봐야겠습니다. 소위 "A/B 테스팅"은 인과적 관계를 추론하는 실험(Experimentation) 입니다. 

 

참고자료:

고수들의 계량경제학 (Mastering Metrics), Ch01 Randomized Trials