데이터 과학과 경제학 PhD

경제학 PhD 마빈입니다. 데이터 과학과 관련해서 경제학과 관련된 내용을 작성합니다. 박사 때는 인과추론과 네트워크 관련 내용을 공부했습니다. 실증산업조직론과 경매이론에도 관심이 있습니다. 양면시장과 매칭 관련해서 산업공학적인 내용도 공부하고자 합니다. 추천 시스템과 양면시장의 관계도 궁금합니다. 프로덕트 개발을 위한 데이터 분석 중 실험과 관련된 통계적인 내용에 관심이 많습니다. 개발경제학 관련해서는 위성 사진을 머신러닝 기법을 통해서 경제학적인

전체 글 75

구글 Optimize AB 테스팅

들어가며 웹으로 해빗트래커를 제작해서 구글 옵티마이즈로 실험을 진행해보았다. 랜딩페이지를 수정했을 때 사람들의 페이지 뷰에 미치는 영향을 분석할 수 있다. How to? 이런 웹사이트를 하나 제작했다. 내가 웹으로 제작한 해빗 트래커 링크: https://habittracker-53889.web.app/ 중간에 구글 애널리틱스에 옵티마이즈 태깅도 했다. 실험을 제작해 보았다 했다. 가설은 구글 닥스로 가이드를 만들면 페이지 뷰가 더 늘어날 것이다이다 (가입률을 구하고 싶었는데, 옵티마이즈에는 지표가 보이지 않았다). 휴대폰 기기가 두 개 있어서 두 개 해보았는데, 하나는 가이드로 가는 링크가 있었고, 다른 하나는 가이드가 없었다. 유저가 두 그룹으로 배정된 것을 볼 수 있다. 홍보 이후 하루 지났더니 사..

AB 테스팅 (온라인 실험) 2022.06.22

[머신러닝 코세라 강의] (6주차) "알고리즘 선택 가이드라인" Machine Learning (by Andrew Ng)

6주차 알고리즘을 선택하는 가이드라인 Learning 알고리즘 평가 다음에 할 스텝 정하기 만약 내가 사용한 모델에 에러가 클 때, 다음은 어떻게 해야할까? - 트레이닝 데이터를 더 찾는다. (하지만, 트레이닝 데이터를 더 수집한다고 에러가 줄어들지 않을 수 있다) - 공변량의 개수를 줄이거나 늘린다. - 일차항을 이차항이나 그 이상으로 늘린다. - Regularization 파라미터를 늘리거나 줄인다. 이러한 선택지들 중에서 성공할만한 선택지로 추리는 방법? ("머신 러닝 진단 (Machine Learning Diagnostic)") 가설 평가 training 데이터와 test 데이터로 분류한다. 트레이닝 데이터에서 에러(cost)를 최소화하는 파라미터를 추정한다. 그리고, 테스트 데이터에서 에러를 계..

머신 러닝 2022.06.21

[책 A/B 테스트] (Ch12-14) "ClientSideExperiments/Instrumentation/RandomizationUnit" Trustworthy Online Controlled Experiments

Ch12 . Client Side Experiments 요약 고객 사이드의 실험은 서버 사이드의 실험과 다르다. 앱 소유자가 통제하지 못하는 부분이 발생한다. 고객 사이드에서의 실험은 앱 발행을 거쳐 고객이 다운로드 받는 과정을 거쳐야 한다. 제한된 시간 내에 실험과 분석을 해야하는 경우 다운로드 받는 시차가 영향을 줄 수 있다. 준실험 방법을 이용해서 bias 를 해결하는 것도 필요하다. 여러 디바이스에서 사용하면서 발생하는 상호작용 문제에 대해서도 고민할 필요가 있다. 어려운 개념이나 궁금했던 내용? 추천 알고리즘 변경에 관한 실험을 할 때는 앱 발행 과정을 거쳐야 할까? 아니면 그냥 서버 사이드의 실험에 불과할까? 데이터를 고객의 앱에 불러오는 쿼리와 관련된 내용들이 서버 사이드라고 볼 수 있는걸까..

AB 테스팅 (온라인 실험) 2022.06.20

[머신러닝 코세라 강의] (5주차) "뉴럴 네트워크" Machine Learning (by Andrew Ng)

이번 주차에서는 파라미터 추정을 위한 구체적인 방법론을 배웁니다. Backpropagation 알고리즘과 forward propagation 알고리즘을 직관적으로 이해하고, 이를 통해 파라미터를 추정하는 스텝을 배웁니다. Cost Function and Backpropagation Cost Function Cost Function in Logistic regression (Regularized version): $$J(\theta) = -\frac{1}{m} \sum_{i=1}^m [ y^{(i)} \times \log ( h_\theta (x^{(i)})) + (1-y^{(i)}) \times \log(1-h_\theta (x^{(i)}))] + \frac{\lambda}{2m} \sum_{i=1}^n..

머신 러닝 2022.06.14

[책 A/B 테스트] (Ch10-11) "Complementary Techniques/Observational Causal Studies" Trustworthy Online Controlled Experiments

Ch10 . Complementary Techniques 요약 실험을 보완하기 위한 테크닉들로 "log-based analysis", "human evaluation", "user experience research (UER)", "focus groups", "survey", 그리고 "external data" 가 있다. (1) log-based analysis: 실험을 분석하기 위해서 유저의 view, 행동이나 상호작용 들에 관한 지표를 구할 수 있다. - 단점은 유저의 행동에 대한 자세한 이유를 이해하기 어렵다. (2) human evaluation: 직접 사람을 고용해서 새로운 상품에 대한 반응을 수집한다. - 단점은 고용된 사람들은 일반적인 유저와 다를 수 있다. (3) user experienc..

AB 테스팅 (온라인 실험) 2022.06.13

[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

4주차는 뉴럴 네트워크에 관한 내용입니다. 이번 단원에서는 직관적으로 뉴럴 네트워크의 이론을 이해하는 단원입니다. 저는 neural network 가 효율적으로 표현할 수 있는 non-linear 가설의 예시가 좋았습니다. Neural network 를 벡터로 표현하기 $$a_1^{(2)} = g(\Theta_{10}^{(1)} x_0 + \Theta_{11}^{(1)} x_1 + \Theta_{12}^{(1)} x_2 + \Theta_{13}^{(1)} x_3) $$ $$a_2^{(2)} = g(\Theta_{20}^{(1)} x_0 + \Theta_{21}^{(1)} x_1 + \Theta_{22}^{(1)} x_2 + \Theta_{23}^{(1)} x_3) $$ $$a_3^{(2)} = g(\Th..

머신 러닝 2022.06.10

[책 A/B 테스트] (Ch07-9) "OEC/" Trustworthy Online Controlled Experiments

Ch07 Metrics for Experimentation and the Overall Evaluation Criterion 요약 여러 지표를 하나로 합쳐 OEC 로 평가할 필요가 있습니다. 이는 어느 한 부분만 보기보다는 비즈니스 목표에 맞게 종합적으로 평가할 필요가 있기 때문입니다. 너무 많은 지표를 잡지 않을 필요가 있습니다. 그리고 단기적인 지표보다는 장기적인 지표도 고려할 필요가 있습니다. 그리고, 데이터에서 상관관계가 인과관계를 의미하지는 않습니다. 어려운 개념이나 궁금했던 내용? 지표 종류가 다양해서 어떻게 하나로 종합한다는 것인지 감이 덜 잡히는 것 같네요. 빙 서치 쿼리 관련 equation (7.1) 을 decompose 할 때, 어떤 문제가 있고, 어떻게 해결하는지 궁금합니다. $$n..

AB 테스팅 (온라인 실험) 2022.06.07

[머신러닝 코세라 강의] (3주차) "로지스틱 회귀" Machine Learning (by Andrew Ng)

3주차에는 classification 문제에 대해서 다룹니다. 쉬운 예로, 어떤 이메일이 도착했을 때, 특정 문장이나 각종 특징 (x)을 가진 이메일이 스팸이거나 (y=1) 그렇지 않거나 (y=1) 를 분류하는 문제입니다. 이전 시간에 배웠던 linear regression 은 outcome 이 0 미만이거나 1 초과의 값도 가질 수 있는 문제가 있습니다. 이를 해결할 logistic regression 을 배웁니다. 추가적으로, 이번 주차에서는 overfitting 문제에 대해서도 다룹니다. 관련 ipython 코드는 구글 colab 에 담아두었습니다. 로지스틱 함수 로지스틱 함수를 이용해 가설을 표현합니다. $h_{\theta} (x)$ 는 output 이 1이 나올 확률입니다. $$h_{\theta..

머신 러닝 2022.05.30

[책 A/B 테스트] (Ch05&6) "사이트 속도/지표" Trustworthy Online Controlled Experiments

Ch05 Speed Matters - An End-to-End Case Study 요약 유저가 경험하는 속도는 revenue per user 와 같은 주요 지표에 영향을 줍니다. 아마존의 실험에 따르면 100 밀리 second 당 매출이 1% 감소했다는 결과가 있습니다. Bing 의 실험에서도 유사한 결과가 나타납니다. 웹사이트의 퍼포먼스를 평가할 때는 유저가 서버로부터 받는 chunk (정보 덩어리) 들의 종류에 따라서 다르게 판단해야 합니다. 먼저 들어오는 chunk 의 속도에 문제가 생기는 것이 나중에 들어오는 chunk 의 속도에 문제가 생기는 것에 비해서 유저의 이탈률을 높입니다. 그리고, 다른 페이지 요소에 따라서 유저가 겪는 경험이 다릅니다. 트위터의 경우 최초의 트윗이 유저의 경험에 중요한..

AB 테스팅 (온라인 실험) 2022.05.30

[인과추론 테크 회사 리포트/리서치 논문 모음 (링크)

인과 추론 공부를 하면서 주제나 키워드에 따라서 논문이나 테크 리포트의 링크를 정리하고 있다. 테크 블로그들을 정리하는 월마트 데이터 과학자 (Leihua Ye) 분의 미디엄이나 링크딘에 관련 링크들이 많이 수록되어 있다. 보다 정교한 분석은 주로 리서치 논문들에 있는 것 같다. PAP 에서 스터디하면서 찾아보니 RD (Regression Discontinuity, 회귀불연속) 관련 내용이 가장 적고, 그 다음이 IV (Instrument Variable, 도구변수)인 것 같다. Tech Reports Quasi-Experimentation In the Industry Link: https://leihua-ye.medium.com/list/quasiexperimentation-in-the-industry..

인과추론 2022.05.30

1 2 3 4 5 6 7 8

전체 글 75

티스토리툴바