전체 글 71

[책 A/B 테스트] (Ch10-11) "Complementary Techniques/Observational Causal Studies" Trustworthy Online Controlled Experiments

Ch10 . Complementary Techniques 요약 실험을 보완하기 위한 테크닉들로 "log-based analysis", "human evaluation", "user experience research (UER)", "focus groups", "survey", 그리고 "external data" 가 있다. (1) log-based analysis: 실험을 분석하기 위해서 유저의 view, 행동이나 상호작용 들에 관한 지표를 구할 수 있다. - 단점은 유저의 행동에 대한 자세한 이유를 이해하기 어렵다. (2) human evaluation: 직접 사람을 고용해서 새로운 상품에 대한 반응을 수집한다. - 단점은 고용된 사람들은 일반적인 유저와 다를 수 있다. (3) user experienc..

[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

4주차는 뉴럴 네트워크에 관한 내용입니다. 이번 단원에서는 직관적으로 뉴럴 네트워크의 이론을 이해하는 단원입니다. 저는 neural network 가 효율적으로 표현할 수 있는 non-linear 가설의 예시가 좋았습니다. Neural network 를 벡터로 표현하기 $$a_1^{(2)} = g(\Theta_{10}^{(1)} x_0 + \Theta_{11}^{(1)} x_1 + \Theta_{12}^{(1)} x_2 + \Theta_{13}^{(1)} x_3) $$ $$a_2^{(2)} = g(\Theta_{20}^{(1)} x_0 + \Theta_{21}^{(1)} x_1 + \Theta_{22}^{(1)} x_2 + \Theta_{23}^{(1)} x_3) $$ $$a_3^{(2)} = g(\Th..

머신 러닝 2022.06.10

[책 A/B 테스트] (Ch07-9) "OEC/" Trustworthy Online Controlled Experiments

Ch07 Metrics for Experimentation and the Overall Evaluation Criterion 요약 여러 지표를 하나로 합쳐 OEC 로 평가할 필요가 있습니다. 이는 어느 한 부분만 보기보다는 비즈니스 목표에 맞게 종합적으로 평가할 필요가 있기 때문입니다. 너무 많은 지표를 잡지 않을 필요가 있습니다. 그리고 단기적인 지표보다는 장기적인 지표도 고려할 필요가 있습니다. 그리고, 데이터에서 상관관계가 인과관계를 의미하지는 않습니다. 어려운 개념이나 궁금했던 내용? 지표 종류가 다양해서 어떻게 하나로 종합한다는 것인지 감이 덜 잡히는 것 같네요. 빙 서치 쿼리 관련 equation (7.1) 을 decompose 할 때, 어떤 문제가 있고, 어떻게 해결하는지 궁금합니다. $$n..

[머신러닝 코세라 강의] (3주차) "로지스틱 회귀" Machine Learning (by Andrew Ng)

3주차에는 classification 문제에 대해서 다룹니다. 쉬운 예로, 어떤 이메일이 도착했을 때, 특정 문장이나 각종 특징 (x)을 가진 이메일이 스팸이거나 (y=1) 그렇지 않거나 (y=1) 를 분류하는 문제입니다. 이전 시간에 배웠던 linear regression 은 outcome 이 0 미만이거나 1 초과의 값도 가질 수 있는 문제가 있습니다. 이를 해결할 logistic regression 을 배웁니다. 추가적으로, 이번 주차에서는 overfitting 문제에 대해서도 다룹니다. 관련 ipython 코드는 구글 colab 에 담아두었습니다. 로지스틱 함수 로지스틱 함수를 이용해 가설을 표현합니다. $h_{\theta} (x)$ 는 output 이 1이 나올 확률입니다. $$h_{\theta..

머신 러닝 2022.05.30

[책 A/B 테스트] (Ch05&6) "사이트 속도/지표" Trustworthy Online Controlled Experiments

Ch05 Speed Matters - An End-to-End Case Study 요약 유저가 경험하는 속도는 revenue per user 와 같은 주요 지표에 영향을 줍니다. 아마존의 실험에 따르면 100 밀리 second 당 매출이 1% 감소했다는 결과가 있습니다. Bing 의 실험에서도 유사한 결과가 나타납니다. 웹사이트의 퍼포먼스를 평가할 때는 유저가 서버로부터 받는 chunk (정보 덩어리) 들의 종류에 따라서 다르게 판단해야 합니다. 먼저 들어오는 chunk 의 속도에 문제가 생기는 것이 나중에 들어오는 chunk 의 속도에 문제가 생기는 것에 비해서 유저의 이탈률을 높입니다. 그리고, 다른 페이지 요소에 따라서 유저가 겪는 경험이 다릅니다. 트위터의 경우 최초의 트윗이 유저의 경험에 중요한..

[인과추론 테크 회사 리포트/리서치 논문 모음 (링크)

인과 추론 공부를 하면서 주제나 키워드에 따라서 논문이나 테크 리포트의 링크를 정리하고 있다. 테크 블로그들을 정리하는 월마트 데이터 과학자 (Leihua Ye) 분의 미디엄이나 링크딘에 관련 링크들이 많이 수록되어 있다. 보다 정교한 분석은 주로 리서치 논문들에 있는 것 같다. PAP 에서 스터디하면서 찾아보니 RD (Regression Discontinuity, 회귀불연속) 관련 내용이 가장 적고, 그 다음이 IV (Instrument Variable, 도구변수)인 것 같다. Tech Reports Quasi-Experimentation In the Industry Link: https://leihua-ye.medium.com/list/quasiexperimentation-in-the-industry..

인과추론 2022.05.30

[머신러닝 코세라 강의] (2주차) "Cost function 의 벡터 표현" Machine Learning (by Andrew Ng)

2주차 테스트를 풀고, 프로그래밍 과제도 완료하였습니다. 프로그래밍 과제는 매트랩이나 옥타브로 하는데, 저는 매트랩으로 수행하였습니다. 홈페이지에서 토큰을 생성해주는데, 매트랩에서 코드를 시행하고 "submit" 을 창에 입력하면 이메일과 토큰을 입력하라고 합니다. 생각보다 체계적이어서 신선했습니다. 프로그래밍 과제는 cost function 과 gradient descent 를 함수 코드에 직접 생성하는 것인데, 수식 이해에 도움이 됩니다. 과제를 풀다가 추가할 수식/프로그램 코드가 있어서 내용을 추가합니다. Cost function cost function 수식입니다. 이전 링크에서 gradient scent 수식의 매트릭스 형태는 작성하였는데, cost function 은 직접적으로 다루지 않은 것..

머신 러닝 2022.05.29

[머신러닝 코세라 강의] (2주차) "Gradient Descent 벡터 표현" Machine Learning (by Andrew Ng)

Andrew Ng 교수님의 Coursera 머신 러닝 수업 중 Octave 를 사용하는 튜토리얼 내용을 정리중이다. 오늘은 다른 프로그래밍 언어에서도 참고할만한 vectorization 개념과 Octave 코드에 대해서 다루어보도록 하겠다. 파이썬 코드는 다음 포스팅에 마련해두어야겠다. Octave 관련 내용 목차: (1) Basic Operations (2) Moving Data Around (3) Computing Data (4) Plotting Data (5) Control Statements: for, while, if statement [Octave 관련 이전 포스팅, (1-5) 바로가기 링크] (6) Vectorization (이번 포스트) (6) Vectorization (numerical)..

머신 러닝 2022.05.29

[머신러닝 코세라 강의] (2주차) "Cost Function & Gradient Descent" Machine Learning (by Andrew Ng)

2주차 Machine Learning (by Andrew Ng) 교수님의 Coursera 강의의 중요 내용을 요약하고, 관련 알고리즘을 직접 파이썬으로 생성해보았습니다. 관련 ipython 코드는 구글 colab 링크에 담아두었습니다. 가설: $h_{\theta} (x) = \theta_0 + \theta_1 x$ 에서 $\theta_0, \theta_1$ 을 선택합니다. 이 때, cost function 인 $J(\theta_0, \theta_1) = \frac{1}{m} \sum_{i=1}^m \Big( h_\theta (x_i )- y_i \Big)^2$ 을 최소화하는 $\theta_0, \theta_1$ 을 찾습니다. $$\min_{\theta_0, \theta_1} \frac{1}{m} \sum..

머신 러닝 2022.05.26

[책 A/B 테스트] (Ch04) "실험 플랫폼과 문화" Trustworthy Online Controlled Experiments

Ch04 Experimentation Platform and Culture 요약 회사의 성장에 따라서 실험의 크기도 달라집니다. 초기에는 1년에 10번 미만의 실험을 하지만, 회사가 성장할 수록 더 많은 실험을 진행할 수 있습니다. 회사 내부에서 실험 플랫폼을 제작할 수도 있으나 따로 외부의 툴을 빌려올 수도 있습니다. 여러 실험들이 동시에 진행될 때 발생하는 문제를 최소화하는 다양한 방법들이 존재합니다. 회사에서는 실험의 결과를 구성원들이 쉽게 결과할 수 있도록 시각화된 결과물을 제공할 필요가 있습니다. 어려운 개념이나 궁금했던 내용? 여러 실험들이 동시에 진행될 때 발생하는 문제들을 해결(또는 최소화)하는 내용들이 잘 이해가 되지 않습니다. 실무 MVP 만 있는 초기 스타트업(또는 사이드 프로젝트 단..