데이터 과학과 경제학 PhD

경제학 PhD 마빈입니다. 데이터 과학과 관련해서 경제학과 관련된 내용을 작성합니다. 박사 때는 인과추론과 네트워크 관련 내용을 공부했습니다. 실증산업조직론과 경매이론에도 관심이 있습니다. 양면시장과 매칭 관련해서 산업공학적인 내용도 공부하고자 합니다. 추천 시스템과 양면시장의 관계도 궁금합니다. 프로덕트 개발을 위한 데이터 분석 중 실험과 관련된 통계적인 내용에 관심이 많습니다. 개발경제학 관련해서는 위성 사진을 머신러닝 기법을 통해서 경제학적인

전체 글 75

[근황] 여름방학, 학기시작, 그리고 취업 준비

박사과정의 마지막 년차라 정신없이 보내고 있다. 티스토리에 작성한 글을 살펴보니, 8월달에 머신러닝 코세라 강의 8주차 (지도학습) 포스팅을 마지막으로 약 두 달 가까이 포스팅을 챙기지 못했다. 그동안 뭐하느라 정신이 없었을까 싶어 8월과 9월의 일기를 다시 읽어보았다. 지도교수님이랑 박사 잡마켓 논문 작업을 주로 하고, 그 과정에서 생긴 이론적으로 내가 궁금했던 내용들을 혼자 최대한 모델링해보고 (잡마켓 논문에는 반영되지 않을듯 하지만 좋은 연습이었던...), 테크 회사 취업 관련해서 정보를 찾아보았다. Photo by Priscilla Du Preez on Unsplash 간간히 여름 방학 때 글을 올리긴 했는데, 티스토리에 공개한 포스트는 A/B 테스팅 관련 책의 내용이 가장 많고, 머신러닝 공부하..

데이터 과학 커리어 (feat. 경제학) 2022.10.03

머신 러닝[머신러닝 코세라 강의] (10주차) "Large Scale Machine Learning"

Gradient Descent with Large Datasets Learning With Large Datasets $J_{CV}$ 와 $J_{train}$ 이 $m$ 에 따라 변하는 값을 비교하면, $m$ 이 큰 것이 필요한지 여부를 판별할 수 있습니다. Stochastic Gradient Descent 대용량 데이터를 다룰 때 계산을 빠르게할 방법이 필요합니다. Gradient descent 의 문제는 $m$ 이 매우 클 때 계산이 어려운 점입니다. 모든 트레이닝 데이터에서 파라미터를 업데이트할 때 모든 데이터를 고려하는 것이 아니라, 각각의 데이터 포인트에 대해서 파라미터 업데이트를 합니다. Mini-Batch Gradient Descent Stochastic gradient descent 와 b..

머신 러닝 2022.09.05

머신 러닝[머신러닝 코세라 강의] (9주차) "Anomaly Detection/Recommender System" (이상징후 탐지 / 추천시스템)

Anomaly Detection Density Estimation Problem Motivation Anomaly detection (이상징후 탐지) 예시로, 비행기 엔진의 특징 두가지로 열 (heat) 과 진동 (vibration) 수치가 있다고 하자. 모형 $p(x)$ 를 구한 후에, $x_{test}$ 가 있을 때, 확률이 특정값 이하면 이상 징후로 예측하고, 특정값 이상이면 이상 징후가 아닌 것으로 예측한다. Gaussian Distribution 가우시안 분포는 일명 정규분포라고 하기도 한다. 가우시안 분포를 잘 안다면 스킵해도 괜찮다. $x \sim N(\mu, \sigma^2)$. 평균과 표준편차를 데이터로부터 추정할 수 있다. Algorithm 지난 시간에 배운 가우시안 분포를 이상징후 탐..

머신 러닝 2022.08.18

머신 러닝[머신러닝 코세라 강의] (8주차) "Unsupervised Learning" (비지도학습)

이번은 앤드류 응 선생님의 머신러닝 코세라 강의의 8주차 내용이다. 이번에는 비지도학습 (Unsupervised Learning)을 배운다. Clustering Unsupervised Learning: Introduction Unsupervised learning 에서는 레이블(outcome 같은 것)이 존재하지 않는다. Unsupervised learning 은 데이터에서 구조를 파악하는 것이다. 예를 들어, 서로 다른 cluster 를 찾는 것이다. Clustering 의 응용으로는 고객군을 분류하거나, 소셜 네트워크 분석에서 사용하거나, 컴퓨팅 클러스터를 구조화하는 것이다. K-Means Algorithm K-Means 알고리즘은 clustering 문제를 푸는 대표적인 알고리즘이다. 예를 들어, ..

머신 러닝 2022.08.11

[책 A/B 테스트] (Ch22) "Spillover (leakage, interference)" Trustworthy Online Controlled Experiments

Chapter 22. Leakage and Interference between Variants 인트로 키워드: “spillover” (leakage, interference) [발표자: 책에서 세 가지 용어를 혼용해서 사용한다는 인상을 받았다] 특정 유닛의 행동에 다른 unit 이 영향을 받는 것 예: 분석 단위가 유저일 때, 내가 “친구 추천” 서비스를 받았을 때, 내가 추천된 사람에게 친구 신청을 보내고, 그 친구 신청을 받은 사람이 수락한다고 하자. 그 때, 두 사람 모두 친구가 생긴다. [발표자가 추가로 생각해본 내용] AB 테스팅 상황이라고 생각한다면, 내가 treatment 그룹에 있고, 나로 인해 친구 신청을 받은 사람이 control group 에 있다면, outcome 이 친구 숫자라고..

AB 테스팅 (온라인 실험) 2022.07.18

해빗트래커 가이드

해빗트래커 가이드 해빗트래커 가이드입니다. (Link: https://habittracker-53889.web.app/ ). (1) 가입 (2) 해빗 작성/체크/진행상황 확인 (3) 비밀번호 변경에 대해 설명하도록 하겠습니다. 좌측 탭을 통해서 필요한 내용을 찾아보실 수 있습니다. 그리고, 가이드를 영상으로 보고 싶으신 분들은 제 유튜브 영상을 참고 바랍니다. 혹시 질문이나 제안 사항이 있으면 언제든지 편하게 이메일로 연락주세요: doctor.marvin.ds@gmail.com . 생산성이 향상되길 바랍니다! 감사해요! (1) 가입 When you first click the link for the app, you will find the following webpage for log-in or sign..

최소 기능 제품 (MVP) 2022.07.07

[책 A/B 테스트] (Ch17-19) "Statistics for AB Testing/Variance/AA Test" Trustworthy Online Controlled Experiments

Ch17 . The Statistics behind Online Controlled Experiments 요약 이번 챕터에서는 실험의 통계적인 측면을 다룹니다. 가설을 검정하고 검정력 개념을 다룹니다. 두 그룹 (treatment group vs. control group) 의 평균적인 차이를 비교하는 가설을 검정하려면 두 집단의 평균값 뿐만 아니라 분산도 다룹니다. 이 때, 표본의 크기가 충분히 클 때, 표본 평균의 분포는 정규분포를 따른다는 중심극한정리 (CLT, Central Limit Theorem)를 기본으로 합니다. Treatment group 과 control group 간의 표본의 크기 차이에 따라서 두 집단의 분포가 달라질 수 있습니다. 그리고, 샘플 사이즈를 선정할 때, 검정력 (1-t..

AB 테스팅 (온라인 실험) 2022.07.04

[머신러닝 코세라 강의] (7주차) "SVM (Support Vector Machines" Machine Learning (by Andrew Ng)

이번은 앤드류 응 선생님의 머신러닝 코세라 강의의 7주차 내용이다. 이번에는 Support Vector Machine 알고리즘을 배운다. Large Margin Classification Optimization Objective 로지스틱 회귀식에서는 $y=1$ 일 때, $\theta^T x >>0$ 이다. $z = \theta^T x$ 가 $z=1$ 일 때 cost function 이 0이 되도록 되도록 한다. 비슷하게, $y=0$ 일 때, $z=-1$ 일 때 cost function 이 0이 되도록 한다. Cost function 에서 $A + \lambda B$ 에서, $\lambda$ 는 training 데이터로부터의 에러와 파라미터러부터 나오는 에러 사이의 가중치가 된다. $c A + B$ 형태로..

머신 러닝 2022.06.28

[책 A/B 테스트] (Ch15-16) "Ramping/Scaling Experiments" Trustworthy Online Controlled Experiments

Ch15 . Ramping Experiment Exposure: Trading Off Spped, Quality, and Risk 요약 모든 유저를 대상으로 실험을 하기보다는 점차적으로 개선책을 확대하는 것이 위험을 줄일 수 있습니다. 그렇다고 해서 개선책의 확대 속도가 느리면 그만큼 기업의 이익을 늘릴 수 없습니다. 장기적인 효과를 추정하는 것도 좋을 수 있으나, 개선된 프로덕트를 소비하지 못하는 유저가 생기는 것은 비윤리적일 수 있습니다. 첫 실험을 진행 중에 일부 유저 그룹을 남겨두는 것도 유용합니다. 너무 결과가 긍정적으로 나타나는 실험의 경우에는 추가 실험을 통해서 효과를 확인할 수 있기 때문입니다. 마지막으로, 실험이 완전히 마무리된 이후에는 실험을 위해 사용했던 코드를 정리할 필요가 있습니다..

AB 테스팅 (온라인 실험) 2022.06.25

[영문 라이팅] 간단한 영작문 교정 사이트 (feat. 헤밍웨이 에디터)

시작하며 영어 라이팅은 경제학 박사 과정에서 매우 중요한 요소이다. 교수님들께 라이팅의 중요성을 정말 자주 듣는다. (경제학자들이 작성한) 한 논문 (Feld et al. 2022) 에 따르면, 알아듣기 쉽고 문법적으로 오류가 적은 글이 더 높은 퀄리티를 가진 논문으로 평가받았다고한다. 이와 관련해서, 영어 작문을 간단히 체크 받을 수 있는 "헤밍웨이 에디터"라는 사이트를 알게 되었다. 이 사이트는 자동 로직을 통해서 수동태, 읽기 어려운 문장 등을 평가한다. 에디터를 통해서 내가 예시로 작성한 글을 고쳐나가는 과정을 포스팅해보도록 하겠다. 에디터 사용 예시 경제학의 네트워크 형성에 관한 계량경제학적인 논문 (Sheng 2020 ECMA)을 읽으면서 다음과 같은 몇 가지 표현들을 초록 (abstract)..

데이터 과학 커리어 (feat. 경제학) 2022.06.23

1 2 3 4 5 6 ··· 8

전체 글 75

티스토리툴바