전체 글 74

[머신러닝 코세라 강의] (6주차) "알고리즘 선택 가이드라인" Machine Learning (by Andrew Ng)

6주차 알고리즘을 선택하는 가이드라인 Learning 알고리즘 평가 다음에 할 스텝 정하기 만약 내가 사용한 모델에 에러가 클 때, 다음은 어떻게 해야할까? - 트레이닝 데이터를 더 찾는다. (하지만, 트레이닝 데이터를 더 수집한다고 에러가 줄어들지 않을 수 있다) - 공변량의 개수를 줄이거나 늘린다. - 일차항을 이차항이나 그 이상으로 늘린다. - Regularization 파라미터를 늘리거나 줄인다. 이러한 선택지들 중에서 성공할만한 선택지로 추리는 방법? ("머신 러닝 진단 (Machine Learning Diagnostic)") 가설 평가 training 데이터와 test 데이터로 분류한다. 트레이닝 데이터에서 에러(cost)를 최소화하는 파라미터를 추정한다. 그리고, 테스트 데이터에서 에러를 계..

머신 러닝 2022.06.21

[책 A/B 테스트] (Ch12-14) "ClientSideExperiments/Instrumentation/RandomizationUnit" Trustworthy Online Controlled Experiments

Ch12 . Client Side Experiments 요약 고객 사이드의 실험은 서버 사이드의 실험과 다르다. 앱 소유자가 통제하지 못하는 부분이 발생한다. 고객 사이드에서의 실험은 앱 발행을 거쳐 고객이 다운로드 받는 과정을 거쳐야 한다. 제한된 시간 내에 실험과 분석을 해야하는 경우 다운로드 받는 시차가 영향을 줄 수 있다. 준실험 방법을 이용해서 bias 를 해결하는 것도 필요하다. 여러 디바이스에서 사용하면서 발생하는 상호작용 문제에 대해서도 고민할 필요가 있다. 어려운 개념이나 궁금했던 내용? 추천 알고리즘 변경에 관한 실험을 할 때는 앱 발행 과정을 거쳐야 할까? 아니면 그냥 서버 사이드의 실험에 불과할까? 데이터를 고객의 앱에 불러오는 쿼리와 관련된 내용들이 서버 사이드라고 볼 수 있는걸까..

[머신러닝 코세라 강의] (5주차) "뉴럴 네트워크" Machine Learning (by Andrew Ng)

이번 주차에서는 파라미터 추정을 위한 구체적인 방법론을 배웁니다. Backpropagation 알고리즘과 forward propagation 알고리즘을 직관적으로 이해하고, 이를 통해 파라미터를 추정하는 스텝을 배웁니다. Cost Function and Backpropagation Cost Function Cost Function in Logistic regression (Regularized version): $$J(\theta) = -\frac{1}{m} \sum_{i=1}^m [ y^{(i)} \times \log ( h_\theta (x^{(i)})) + (1-y^{(i)}) \times \log(1-h_\theta (x^{(i)}))] + \frac{\lambda}{2m} \sum_{i=1}^n..

머신 러닝 2022.06.14

[책 A/B 테스트] (Ch10-11) "Complementary Techniques/Observational Causal Studies" Trustworthy Online Controlled Experiments

Ch10 . Complementary Techniques 요약 실험을 보완하기 위한 테크닉들로 "log-based analysis", "human evaluation", "user experience research (UER)", "focus groups", "survey", 그리고 "external data" 가 있다. (1) log-based analysis: 실험을 분석하기 위해서 유저의 view, 행동이나 상호작용 들에 관한 지표를 구할 수 있다. - 단점은 유저의 행동에 대한 자세한 이유를 이해하기 어렵다. (2) human evaluation: 직접 사람을 고용해서 새로운 상품에 대한 반응을 수집한다. - 단점은 고용된 사람들은 일반적인 유저와 다를 수 있다. (3) user experienc..

[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

4주차는 뉴럴 네트워크에 관한 내용입니다. 이번 단원에서는 직관적으로 뉴럴 네트워크의 이론을 이해하는 단원입니다. 저는 neural network 가 효율적으로 표현할 수 있는 non-linear 가설의 예시가 좋았습니다. Neural network 를 벡터로 표현하기 $$a_1^{(2)} = g(\Theta_{10}^{(1)} x_0 + \Theta_{11}^{(1)} x_1 + \Theta_{12}^{(1)} x_2 + \Theta_{13}^{(1)} x_3) $$ $$a_2^{(2)} = g(\Theta_{20}^{(1)} x_0 + \Theta_{21}^{(1)} x_1 + \Theta_{22}^{(1)} x_2 + \Theta_{23}^{(1)} x_3) $$ $$a_3^{(2)} = g(\Th..

머신 러닝 2022.06.10

[책 A/B 테스트] (Ch07-9) "OEC/" Trustworthy Online Controlled Experiments

Ch07 Metrics for Experimentation and the Overall Evaluation Criterion 요약 여러 지표를 하나로 합쳐 OEC 로 평가할 필요가 있습니다. 이는 어느 한 부분만 보기보다는 비즈니스 목표에 맞게 종합적으로 평가할 필요가 있기 때문입니다. 너무 많은 지표를 잡지 않을 필요가 있습니다. 그리고 단기적인 지표보다는 장기적인 지표도 고려할 필요가 있습니다. 그리고, 데이터에서 상관관계가 인과관계를 의미하지는 않습니다. 어려운 개념이나 궁금했던 내용? 지표 종류가 다양해서 어떻게 하나로 종합한다는 것인지 감이 덜 잡히는 것 같네요. 빙 서치 쿼리 관련 equation (7.1) 을 decompose 할 때, 어떤 문제가 있고, 어떻게 해결하는지 궁금합니다. $$n..

[머신러닝 코세라 강의] (3주차) "로지스틱 회귀" Machine Learning (by Andrew Ng)

3주차에는 classification 문제에 대해서 다룹니다. 쉬운 예로, 어떤 이메일이 도착했을 때, 특정 문장이나 각종 특징 (x)을 가진 이메일이 스팸이거나 (y=1) 그렇지 않거나 (y=1) 를 분류하는 문제입니다. 이전 시간에 배웠던 linear regression 은 outcome 이 0 미만이거나 1 초과의 값도 가질 수 있는 문제가 있습니다. 이를 해결할 logistic regression 을 배웁니다. 추가적으로, 이번 주차에서는 overfitting 문제에 대해서도 다룹니다. 관련 ipython 코드는 구글 colab 에 담아두었습니다. 로지스틱 함수 로지스틱 함수를 이용해 가설을 표현합니다. $h_{\theta} (x)$ 는 output 이 1이 나올 확률입니다. $$h_{\theta..

머신 러닝 2022.05.30

[책 A/B 테스트] (Ch05&6) "사이트 속도/지표" Trustworthy Online Controlled Experiments

Ch05 Speed Matters - An End-to-End Case Study 요약 유저가 경험하는 속도는 revenue per user 와 같은 주요 지표에 영향을 줍니다. 아마존의 실험에 따르면 100 밀리 second 당 매출이 1% 감소했다는 결과가 있습니다. Bing 의 실험에서도 유사한 결과가 나타납니다. 웹사이트의 퍼포먼스를 평가할 때는 유저가 서버로부터 받는 chunk (정보 덩어리) 들의 종류에 따라서 다르게 판단해야 합니다. 먼저 들어오는 chunk 의 속도에 문제가 생기는 것이 나중에 들어오는 chunk 의 속도에 문제가 생기는 것에 비해서 유저의 이탈률을 높입니다. 그리고, 다른 페이지 요소에 따라서 유저가 겪는 경험이 다릅니다. 트위터의 경우 최초의 트윗이 유저의 경험에 중요한..

[인과추론 테크 회사 리포트/리서치 논문 모음 (링크)

인과 추론 공부를 하면서 주제나 키워드에 따라서 논문이나 테크 리포트의 링크를 정리하고 있다. 테크 블로그들을 정리하는 월마트 데이터 과학자 (Leihua Ye) 분의 미디엄이나 링크딘에 관련 링크들이 많이 수록되어 있다. 보다 정교한 분석은 주로 리서치 논문들에 있는 것 같다. PAP 에서 스터디하면서 찾아보니 RD (Regression Discontinuity, 회귀불연속) 관련 내용이 가장 적고, 그 다음이 IV (Instrument Variable, 도구변수)인 것 같다. Tech Reports Quasi-Experimentation In the Industry Link: https://leihua-ye.medium.com/list/quasiexperimentation-in-the-industry..

인과추론 2022.05.30

[머신러닝 코세라 강의] (2주차) "Cost function 의 벡터 표현" Machine Learning (by Andrew Ng)

2주차 테스트를 풀고, 프로그래밍 과제도 완료하였습니다. 프로그래밍 과제는 매트랩이나 옥타브로 하는데, 저는 매트랩으로 수행하였습니다. 홈페이지에서 토큰을 생성해주는데, 매트랩에서 코드를 시행하고 "submit" 을 창에 입력하면 이메일과 토큰을 입력하라고 합니다. 생각보다 체계적이어서 신선했습니다. 프로그래밍 과제는 cost function 과 gradient descent 를 함수 코드에 직접 생성하는 것인데, 수식 이해에 도움이 됩니다. 과제를 풀다가 추가할 수식/프로그램 코드가 있어서 내용을 추가합니다. Cost function cost function 수식입니다. 이전 링크에서 gradient scent 수식의 매트릭스 형태는 작성하였는데, cost function 은 직접적으로 다루지 않은 것..

머신 러닝 2022.05.29