전체 글 74

머신 러닝[머신러닝 코세라 강의] (10주차) "Large Scale Machine Learning"

Gradient Descent with Large Datasets Learning With Large Datasets $J_{CV}$ 와 $J_{train}$ 이 $m$ 에 따라 변하는 값을 비교하면, $m$ 이 큰 것이 필요한지 여부를 판별할 수 있습니다. Stochastic Gradient Descent 대용량 데이터를 다룰 때 계산을 빠르게할 방법이 필요합니다. Gradient descent 의 문제는 $m$ 이 매우 클 때 계산이 어려운 점입니다. 모든 트레이닝 데이터에서 파라미터를 업데이트할 때 모든 데이터를 고려하는 것이 아니라, 각각의 데이터 포인트에 대해서 파라미터 업데이트를 합니다. Mini-Batch Gradient Descent Stochastic gradient descent 와 b..

머신 러닝 2022.09.05

머신 러닝[머신러닝 코세라 강의] (9주차) "Anomaly Detection/Recommender System" (이상징후 탐지 / 추천시스템)

Anomaly Detection Density Estimation Problem Motivation Anomaly detection (이상징후 탐지) 예시로, 비행기 엔진의 특징 두가지로 열 (heat) 과 진동 (vibration) 수치가 있다고 하자. 모형 $p(x)$ 를 구한 후에, $x_{test}$ 가 있을 때, 확률이 특정값 이하면 이상 징후로 예측하고, 특정값 이상이면 이상 징후가 아닌 것으로 예측한다. Gaussian Distribution 가우시안 분포는 일명 정규분포라고 하기도 한다. 가우시안 분포를 잘 안다면 스킵해도 괜찮다. $x \sim N(\mu, \sigma^2)$. 평균과 표준편차를 데이터로부터 추정할 수 있다. Algorithm 지난 시간에 배운 가우시안 분포를 이상징후 탐..

머신 러닝 2022.08.18

머신 러닝[머신러닝 코세라 강의] (8주차) "Unsupervised Learning" (비지도학습)

이번은 앤드류 응 선생님의 머신러닝 코세라 강의의 8주차 내용이다. 이번에는 비지도학습 (Unsupervised Learning)을 배운다. Clustering Unsupervised Learning: Introduction Unsupervised learning 에서는 레이블(outcome 같은 것)이 존재하지 않는다. Unsupervised learning 은 데이터에서 구조를 파악하는 것이다. 예를 들어, 서로 다른 cluster 를 찾는 것이다. Clustering 의 응용으로는 고객군을 분류하거나, 소셜 네트워크 분석에서 사용하거나, 컴퓨팅 클러스터를 구조화하는 것이다. K-Means Algorithm K-Means 알고리즘은 clustering 문제를 푸는 대표적인 알고리즘이다. 예를 들어, ..

머신 러닝 2022.08.11

[책 A/B 테스트] (Ch22) "Spillover (leakage, interference)" Trustworthy Online Controlled Experiments

Chapter 22. Leakage and Interference between Variants 인트로 키워드: “spillover” (leakage, interference) [발표자: 책에서 세 가지 용어를 혼용해서 사용한다는 인상을 받았다] 특정 유닛의 행동에 다른 unit 이 영향을 받는 것 예: 분석 단위가 유저일 때, 내가 “친구 추천” 서비스를 받았을 때, 내가 추천된 사람에게 친구 신청을 보내고, 그 친구 신청을 받은 사람이 수락한다고 하자. 그 때, 두 사람 모두 친구가 생긴다. [발표자가 추가로 생각해본 내용] AB 테스팅 상황이라고 생각한다면, 내가 treatment 그룹에 있고, 나로 인해 친구 신청을 받은 사람이 control group 에 있다면, outcome 이 친구 숫자라고..

해빗트래커 가이드

해빗트래커 가이드 해빗트래커 가이드입니다. (Link: https://habittracker-53889.web.app/ ). (1) 가입 (2) 해빗 작성/체크/진행상황 확인 (3) 비밀번호 변경에 대해 설명하도록 하겠습니다. 좌측 탭을 통해서 필요한 내용을 찾아보실 수 있습니다. 그리고, 가이드를 영상으로 보고 싶으신 분들은 제 유튜브 영상을 참고 바랍니다. 혹시 질문이나 제안 사항이 있으면 언제든지 편하게 이메일로 연락주세요: doctor.marvin.ds@gmail.com . 생산성이 향상되길 바랍니다! 감사해요! (1) 가입 When you first click the link for the app, you will find the following webpage for log-in or sign..

[책 A/B 테스트] (Ch17-19) "Statistics for AB Testing/Variance/AA Test" Trustworthy Online Controlled Experiments

Ch17 . The Statistics behind Online Controlled Experiments 요약 이번 챕터에서는 실험의 통계적인 측면을 다룹니다. 가설을 검정하고 검정력 개념을 다룹니다. 두 그룹 (treatment group vs. control group) 의 평균적인 차이를 비교하는 가설을 검정하려면 두 집단의 평균값 뿐만 아니라 분산도 다룹니다. 이 때, 표본의 크기가 충분히 클 때, 표본 평균의 분포는 정규분포를 따른다는 중심극한정리 (CLT, Central Limit Theorem)를 기본으로 합니다. Treatment group 과 control group 간의 표본의 크기 차이에 따라서 두 집단의 분포가 달라질 수 있습니다. 그리고, 샘플 사이즈를 선정할 때, 검정력 (1-t..

[머신러닝 코세라 강의] (7주차) "SVM (Support Vector Machines" Machine Learning (by Andrew Ng)

이번은 앤드류 응 선생님의 머신러닝 코세라 강의의 7주차 내용이다. 이번에는 Support Vector Machine 알고리즘을 배운다. Large Margin Classification Optimization Objective 로지스틱 회귀식에서는 $y=1$ 일 때, $\theta^T x >>0$ 이다. $z = \theta^T x$ 가 $z=1$ 일 때 cost function 이 0이 되도록 되도록 한다. 비슷하게, $y=0$ 일 때, $z=-1$ 일 때 cost function 이 0이 되도록 한다. Cost function 에서 $A + \lambda B$ 에서, $\lambda$ 는 training 데이터로부터의 에러와 파라미터러부터 나오는 에러 사이의 가중치가 된다. $c A + B$ 형태로..

머신 러닝 2022.06.28

[책 A/B 테스트] (Ch15-16) "Ramping/Scaling Experiments" Trustworthy Online Controlled Experiments

Ch15 . Ramping Experiment Exposure: Trading Off Spped, Quality, and Risk 요약 모든 유저를 대상으로 실험을 하기보다는 점차적으로 개선책을 확대하는 것이 위험을 줄일 수 있습니다. 그렇다고 해서 개선책의 확대 속도가 느리면 그만큼 기업의 이익을 늘릴 수 없습니다. 장기적인 효과를 추정하는 것도 좋을 수 있으나, 개선된 프로덕트를 소비하지 못하는 유저가 생기는 것은 비윤리적일 수 있습니다. 첫 실험을 진행 중에 일부 유저 그룹을 남겨두는 것도 유용합니다. 너무 결과가 긍정적으로 나타나는 실험의 경우에는 추가 실험을 통해서 효과를 확인할 수 있기 때문입니다. 마지막으로, 실험이 완전히 마무리된 이후에는 실험을 위해 사용했던 코드를 정리할 필요가 있습니다..

[영문 라이팅] 간단한 영작문 교정 사이트 (feat. 헤밍웨이 에디터)

시작하며 영어 라이팅은 경제학 박사 과정에서 매우 중요한 요소이다. 교수님들께 라이팅의 중요성을 정말 자주 듣는다. (경제학자들이 작성한) 한 논문 (Feld et al. 2022) 에 따르면, 알아듣기 쉽고 문법적으로 오류가 적은 글이 더 높은 퀄리티를 가진 논문으로 평가받았다고한다. 이와 관련해서, 영어 작문을 간단히 체크 받을 수 있는 "헤밍웨이 에디터"라는 사이트를 알게 되었다. 이 사이트는 자동 로직을 통해서 수동태, 읽기 어려운 문장 등을 평가한다. 에디터를 통해서 내가 예시로 작성한 글을 고쳐나가는 과정을 포스팅해보도록 하겠다. 에디터 사용 예시 경제학의 네트워크 형성에 관한 계량경제학적인 논문 (Sheng 2020 ECMA)을 읽으면서 다음과 같은 몇 가지 표현들을 초록 (abstract)..

구글 Optimize AB 테스팅

들어가며 웹으로 해빗트래커를 제작해서 구글 옵티마이즈로 실험을 진행해보았다. 랜딩페이지를 수정했을 때 사람들의 페이지 뷰에 미치는 영향을 분석할 수 있다. How to? 이런 웹사이트를 하나 제작했다. 내가 웹으로 제작한 해빗 트래커 링크: https://habittracker-53889.web.app/ 중간에 구글 애널리틱스에 옵티마이즈 태깅도 했다. 실험을 제작해 보았다 했다. 가설은 구글 닥스로 가이드를 만들면 페이지 뷰가 더 늘어날 것이다이다 (가입률을 구하고 싶었는데, 옵티마이즈에는 지표가 보이지 않았다). 휴대폰 기기가 두 개 있어서 두 개 해보았는데, 하나는 가이드로 가는 링크가 있었고, 다른 하나는 가이드가 없었다. 유저가 두 그룹으로 배정된 것을 볼 수 있다. 홍보 이후 하루 지났더니 사..