AB 테스팅 (온라인 실험)

[책 A/B 테스트] (Ch17-19) "Statistics for AB Testing/Variance/AA Test" Trustworthy Online Controlled Experiments

마빈 Marvin 2022. 7. 4. 20:54

 

Ch17 . The Statistics behind Online Controlled Experiments

요약

이번 챕터에서는 실험의 통계적인 측면을 다룹니다. 가설을 검정하고 검정력 개념을 다룹니다. 두 그룹 (treatment group vs. control group) 의 평균적인 차이를 비교하는 가설을 검정하려면 두 집단의 평균값 뿐만 아니라 분산도 다룹니다. 이 때, 표본의 크기가 충분히 클 때, 표본 평균의 분포는 정규분포를 따른다는 중심극한정리 (CLT, Central Limit Theorem)를 기본으로 합니다. Treatment group 과 control group 간의 표본의 크기 차이에 따라서 두 집단의 분포가 달라질 수 있습니다. 그리고, 샘플 사이즈를 선정할 때, 검정력 (1-type II 에러)는 실무에서 80% 정도를 상정합니다. Multiple hypothesis testing 과 관련된 여러 검정 방법이 있습니다.

 

어려운 개념이나 궁금했던 내용?

Multiple testing 의 여러 내용들의 장단점 비교가 어려웠다. Bonferroni correction, Benjamini-Hochberg procedure 등이 있는데, 각각 어떠한 가정을 하고 있고, 관련 지표의 결과들을 어떻게 해석하는지 좀 더 이해가 필요할 것 같다. 

 

Bonferroni correction

significance level 이 $\alpha$ 라고 할 때, 각 테스트의 cut-off 를 $\frac{\alpha}{n}$ 으로 둔다. 

예를 들어,

$P(\text{적어도 하나가 유의한 결과) $

$= 1 - P(\text{유의하지 않은 결과}) = 1 - (1-0.0025)^{20} \approx 0.0488$

위 예시는 다른 자료에서 찾았다. 

다만, Bonferroni correction 은 각 경우가 독립적이라고 가정하며, 너무 보수적이기 때문에 false negative 가 커질 수 있다. 

 

Benjamini-Hochberg procedure

다른 자료를 살펴보니, $M$ 개의 테스트가 있으면, p-value 를 근거로 순서를 세운 다음에 p-value 에 부합하도록 reject 되는 테스트를 고르는 방법인 것 같다. 

 

 

실무

Multiple hypothesis testing 은 확인하고 싶은 지표가 여러개 있을 때 유용해보인다. 

 

Ch18 . Variance Estimation and Improved Sensitivity: Pitfalls and Solutions

요약

실험에 사용되는 주요 통계적 개념들 - 통계적 유의성, p-value, 검정력, 신뢰구간 등 - 은 분산과 관련되어 있다. 분산을 정확히 구하는 방법 뿐만 아니라, 이를 줄이는 방법도 이해할 필요가 있다. 

 

어려운 개념이나 궁금했던 내용?

변화율의 분산은 가설 검정에 사용되는 것인가? 

 

실무

변화량과 변화율은 결과 해석할 시에 의미가 있는 것 같다. 예를 들어서, CLT 가 1%에서 2%로 상승했다면, 변화량 관점에서는 1% 포인트 상승인데, 변화율 관점에서는 (2%-1%)/1% = 50%이다. 

 

Ch19 . The A/A Test

요약

실험의 신뢰도를 높이기 위해서는 A/A 테스트를 우선 시행할 필요가 있습니다. AA 테스트를 어떻게 시행하는지, A/A 테스트가 실패할 때 다음 스텝에 대한 내용들입니다. 

 

어려운 개념이나 궁금했던 내용?

유저 단위 randomization 에서 metric 은 다른 단위일 때의 예로 PLT (page-load-time) 가 나오는데, 그 의미가 무엇인가? 

 

실무

A/A 테스트로 두 집단이 동질적임을 확인하면 그 다음에는 나뉜 집단에 A/B 테스트를 하는 것인가?