인과추론 9

Difference-in-differences instrumental variable

"인과추론 관련 (나의) 글 링크 모음" 에서 인과추론에 관한 다양한 토픽을 접하실 수 있습니다. Instrumental Variable 설명 할인률이 결제액에 미치는 영향을 구하고 싶다고 가정합시다. 할인률 선택은 사람들의 특성에 따라서 다를 수 있습니다. 예를 들어서, 가격이 낮을 수록 소득이 낮은 학생은 수요량이 증가할 수 있으나 소득이 높은 직장인의 경우에는 가격에 크게 반응하지 않을 수 있습니다. 이러한 상황에서 할인률에 따라서 결제액에 미치는 영향을 구한다고 하면, 통제되지 않은 변수들이 인과추론에 영향을 줄 수 있습니다. 그렇다면, 어떻게 하면, 인과적인 추론이 가능할까요? 할인률 적용 프로그램과 관련된 안내 푸쉬 메세지를 앱 내에서 유저에게 랜덤으로 보낸다고 가정합시다. 안내를 받은 유저들..

인과추론 2023.04.30

이중차분 (Difference-inDifference), Synthetic Control

이번 포스팅에서는 이중차분 (Difference-in-difference) 과 Synthetic Control 에 대해 간단한 가상의 사례를 바탕으로 개념을 간략히 설명하도록 하겠습니다. 이중차분 개념 설명 이중차분이란, 어떤 정책의 변화로 인해 연구자 (= 분석가) 가 궁금해하는 결과값의 두 집단 사이의 차이가 변하는지를 보는 것입니다. 예를 들어서, 앱을 운영하는 중에 새로운 기능의 효과를 검증한다고 합시다. 일인당 결제액은 아이폰 유저가 안드로이드 유저의 결제액에 비해 그동안 높았다고 가정합시다. 이 때, 임의로 안드로이드에서는 새로운 기능을 추가하고, 아이폰에는 기능을 추가하지 않았다고 합시다. 그 후로, 일인당 결제액의 차이가 감소했다면, 새로운 기능이 일인당 결제액에 부정적인 영향을 미쳤다고 ..

인과추론 2023.04.28

정책의 점진적인 도입 효과를 추론하고 싶다면? (two-way fixed effects model)

이번 포스팅에서는 데이터가 존재하는 논문을 바탕으로 2요인 고정효과 모형을 추정하는 구체적인 방법을 다룹니다. 그리고 계량경제학적인 수식을 살펴보고, AWS 에서 약 1GB 크기의 약 7백만 개의 관측치를 저장하고, 이를 SQL 을 통해서 추출한 후에 파이썬에서 직접 실습해볼 수 있도록 하는 가이드도 함께 제공합니다. [1] 논문의 사례 예시 (데이터와 함께) 데이터 분석가로서 이메일 등록이 고객 참여에 미치는 영향을 분석하는 임무가 주어졌습니다. 어떻게 분석을 해야 할까요? 이메일 등록은 유저마다 다른 시점에서 시작하기 때문에 점진적인 이중차분법 (staggered Difference-in-Difference) 을 적용할 수 있습니다. 점진적인 이중차분법에 대해 본격적으로 들어가기에 앞서, 이중차분법에..

인과추론 2023.04.02

[AWS로 SQL] 2요인 고정효과 모형

이번 포스트는 2요인 고정효과 모형에 관해서 AWS 에서 직접 실습할 수 있도록 하는 포스트이다. US.Virginia 버젼으로 AWS S3, Glue, Athena 를 사용하고 있는데, Seoul 로 하면 인터페이스가 달라보인다. 그래도 주요 기능은 바뀌지 않을 것이라고 가정하고 포스팅해보겠다. AWS S3 에 나는 hyeok/paperabtest/ 폴더에 ab_data.csv 파일을 저장해두었다. AWS Glue 왼쪽 탭에서 Crawlers 를 클릭한다. 클릭하면, 이전에 실행했던 클롤러들에 관한 화면이 나온다. 우측에 "Create crawler" 를 클릭한다. 스텝 1, ... , 5 가 있는데, 설명대로 읽어주면 된다. 나는 paperabtest 라는 테이블에 저장을 했다. AWS Athena ..

인과추론 2023.04.02

[파이썬 코드] 2요인 고정효과 모형

2요인 고정효과 모형 (two-way fixed effect) 추정에서, de-meaning (그룹별로 각 평균을 빼주는 형태) 을 직접 하는 코드를 파이썬으로 작성했다. 계량경제학 과제 하는 느낌이긴 한데, 이렇게 연습하다보니 이해가 명확해지기는 한다. 그리고, 구글 Colab 으로 회귀식을 돌리는데, 고정효과 (fixed effect) 를 사용하는 회사 아이디 (firm_id) 가 2천8백여개가 되니까, 고정효과 사용하는 식들이 계속 안 돌아가서 원인을 아직 못 찾고 있다. 일단 2요인 고정효과 모형에서 이렇게 de-meaning 을 할 수 있다는 것을 이용하면, 보다 간단한 이중차분 (difference-in-difference) 에서도 de-meaning 이 가능할 것으로 이해하고 있다. 관련 코..

인과추론 2023.04.02

[인과추론 테크 회사 리포트/리서치 논문 모음 (링크)

인과 추론 공부를 하면서 주제나 키워드에 따라서 논문이나 테크 리포트의 링크를 정리하고 있다. 테크 블로그들을 정리하는 월마트 데이터 과학자 (Leihua Ye) 분의 미디엄이나 링크딘에 관련 링크들이 많이 수록되어 있다. 보다 정교한 분석은 주로 리서치 논문들에 있는 것 같다. PAP 에서 스터디하면서 찾아보니 RD (Regression Discontinuity, 회귀불연속) 관련 내용이 가장 적고, 그 다음이 IV (Instrument Variable, 도구변수)인 것 같다. Tech Reports Quasi-Experimentation In the Industry Link: https://leihua-ye.medium.com/list/quasiexperimentation-in-the-industry..

인과추론 2022.05.30

[인과추론] 매칭 (feat. PSM)

시작하며 새로운 프로덕트 런칭 등의 효과를 분석하는 일에는 A/B 테스팅과 같은 실험 방법론이 효과적이지만 윤리적인 문제나 기간적인 문제 또는 리소스 부족 등의 문제로 인해 도입하기 어려운 상황이 발생합니다. 이러한 상황에서 PSM (성향점수 매칭)), 이중차분, 회귀단절, 도구변수 등의 인과추론 방법론들을 고려해볼 수 있는데요, 이번 포스팅에서는 PSM 에 대해서 다루어보도록 하겠습니다. PSM 은 성향점수 매칭 방법은 유저(또는 일반적으로 관측치)가 정책(프로덕트 런칭 등)의 treatment 그룹에 속할 확률을 기반으로 treatment 그룹과 control 그룹을 나누는 방법입니다. 예를 들어, 새로운 음악 추천 서비스의 음악 소비에 대한 효과를 추정하고 싶다고 한다면, 새로운 음악을 들을 확률이..

인과추론 2022.05.17

[인과추론] Randomization

첫번째 주제인 "Randomization" 입니다. 정책을 받는 집단과 그렇지 않은 집단을 임의로 나누어야 하는 이유에 대한 설명입니다. 흔히, "인과관계와 상관관계가 다르다"는 구절에서, 상관관계가 "문제"가 있는 이유 (상관관계를 통해서 특정 정책의 효과를 추론할 수 없는 이유)는 두 집단 사이의 특징이 애초에 다르기 때문입니다. 가상의 예시를 통해서 우리가 알고 싶은 효과와 두 집단 사이의 내재된 차이를 수식적으로 구분해보도록 해보겠습니다. 아래 사례는 "고수들의 계량경제학 (Mastering Metrics)" 의 예시의 구조를 한국적으로 각색했습니다 (미국 의료 보험 수급 여부 대신 고등학교 1학년의 영어 과외로 바꿔보았습니다). 영어 과외가 (고등학교 1학년) 학생들의 성적에 미치는 영향을 알고..

인과추론 2022.04.26

[인과추론] 시작하며

PAP (Product Analytics Playground) 의 퍼블리셔로 참석하면서 인과추론 스터디를 함께 하고 있다. 인과추론의 큰 토픽들의 이론과 실무의 내용들을 돌아가면서 요약하고 발표한다. 나는 관심있는 회사들이 인과추론과 관련된 내용들을 물어볼 수 있기 때문에, 준비하는데 도움이 된다. 그리고 회사들의 테크 블로그의 내용들도 한 번 더 보게 되고, 프로덕트 관점에서 생각해볼 수 있어서 스터디와 방향이 잘 맞는 것 같다. 이론은 "고수들의 계량경제학 (Mastering Metrics)" 의 내용을 기본으로 정리해야 겠다. 이론과 실무 각각 토픽에 맞춰서 2주에 한 번씩 나가니까, 정리할 시간은 적당히 있는 것 같다. 이론 관련해서 특히 계량경제학에서는 이 책과 함께, "대체로 해롭지 않은 계량..

인과추론 2022.04.26