AB 테스팅 (온라인 실험) 14

[책 A/B 테스트] (Ch03) "실험 중 통계적 오류" Trustworthy Online Controlled Experiments

Ch03 Twyman’s Law and Experimentation Trustworthiness 요약 지나치게 좋은 통계적 결과는 오류에 기반할 가능성이 큽니다. 우선, 통계치를 잘못 해석할 위험이 있습니다. 예를 들어, p-value 를 부정확하게 해석하거나 통계적으로 유의한 결과만 선택하거나, 많은 테스트를 통해서 확률적으로 유의한 결과를 찾는 경우입니다. SUTVA가 성립하는가, Treatment 그룹에서 유저를 어디로 redirect 하는가, 실험과 관련된 백엔드의 성능이 변하는가에 따라서 internal validity 에 문제가 발생할 수 있습니다. 실험 과정에서 특정 그룹이 과다 샘플링 된다면, 분석을 일반화하기 어려운 external validity 문제가 발생할 수 있습니다. Treatm..

샘플 사이즈 계산기의 공식 이해와 응용

PAP (Product Analytics Playground) 내부에서 AB 테스팅 스터디 리드를 준비던 중 sample size 계산에 대한 수식적인 내용을 보충해야겠다는 생각이 들었습니다. 책(Trustworthy Online Controlled Experiments)의 Chapter 02 에 따르면, 샘플 사이즈를 계산하기 위해서는 baseline 의 평균과 표준편차를 알아야 한다는 내용이 나옵니다. 샘플 사이즈 계산에 필요한 기본적인 통계적인 로직을 이해하면, 다양한 상황에서 적용할 수 있는 장점이 있습니다. 제가 Optimizely 에서 본 계산기는 구매전환율과 같은 확률을 비교하는 상황(outcome 이 0과 1값 사이)인데, 유저 당 수익과 같은 outcome 이 확률이 아닌 상황에서는 다른..

[책 A/B 테스트] (Ch02) "실험 수행과 분석" Trustworthy Online Controlled Experiments

Ch 02 Running and Analyzing Experiments - 요약 주요 측정 지표를 설정한 후 통계적 가설 검정을 시행합니다. 일반적으로 실무에서는 80~90% 이상의 statistical power 을 얻을 수 있는 샘플 크기를 선정합니다. 실험 결과를 해석할 때, 통계적인 유의성 뿐만 아니라 practical 한 유의성도 평가해야 합니다. - 어려운 개념이나 궁금했던 내용? (p.32) practical significance level 을 증가시킬 때, 큰 변화는 찾기가 쉽기 때문에, sample size 를 줄여도 된다 -> 수식으로 확인해보고 싶다... - 실무 적용? 실험에 드는 비용 (컴퓨팅 + 개발자의 시간?) 새로운 환경으로 변경하는데 드는 비용은 무엇인가? (연습) 아래 ..

[책 A/B 테스트] (Ch01) "책 시작하기" Trustworthy Online Controlled Experiments

프로덕트 분석가와 데이터 분석가분들 사이에서 많이 회자되는 책을 PAP 스터디를 통해서 시작하게 되었다. 한글판은 최근에 나왔다고 하니 한글로 공부하고 싶으신 분들은 교보문고에서 구매하면 될 것 같다. 영문 제목은 "Trustworthy Online Controlled Experiments" 이다. 한글판 (교보문고) 링크 Ch 01 Introduction and Motivation - 요약 실험(또는 A/B 테스트)은 데이터를 기반한 의사결정을 기업이 할 수 있도록 돕습니다. 기업의 현재 상황에 적합한 주요 지표를 설정하고, 새로운 정책이 지표를 개선시키는 지 평가할 수 있습니다. 또한, 새로운 MVP (Minimum viable product) 을 적은 리스크로 테스트해볼 수 있습니다. - 어려운 개..