AB 테스팅 (온라인 실험)

[책 A/B 테스트] (Ch07-9) "OEC/" Trustworthy Online Controlled Experiments

마빈 Marvin 2022. 6. 7. 09:19

Ch07 Metrics for Experimentation and the Overall Evaluation Criterion

요약

여러 지표를 하나로 합쳐 OEC 로 평가할 필요가 있습니다. 이는 어느 한 부분만 보기보다는 비즈니스 목표에 맞게 종합적으로 평가할 필요가 있기 때문입니다. 너무 많은 지표를 잡지 않을 필요가 있습니다. 그리고 단기적인 지표보다는 장기적인 지표도 고려할 필요가 있습니다. 그리고, 데이터에서 상관관계가 인과관계를 의미하지는 않습니다. 

 

어려운 개념이나 궁금했던 내용?

지표 종류가 다양해서 어떻게 하나로 종합한다는 것인지 감이 덜 잡히는 것 같네요. 

빙 서치 쿼리 관련 equation (7.1) 을 decompose 할 때, 어떤 문제가 있고, 어떻게 해결하는지 궁금합니다. 

 

nUsersMonth×SessionsUser×Distinc queriesSession

 

where 두 번째와 세 번째 분수는 월에 걸쳐서 집계되었습니다. Session 은 서치 엔진에 기록된 유저의 쿼리 행동의 시작과 종료를 기준으로 측정되었습니다. 

 

실무

퍼널의 단계가 A -> B -> C 라면, A 에서 실험을 하면, outcome 으로 B 또는 C 를 보고, B 에서 실험을 하면, C 를 보면 되지 않을까?

 

Ch08 Institutional Memory and Meta-Analysis

요약

이전 실험에 대한 결과를 기록할 필요가 있습니다. 어떠한 정책이 어떠한 긍정적인 효과가 있었고, 실행하면 좋지 못한 정책들을 알게 됩니다. 그리고, 외부 환경에 결과가 민감하게 반응했던 실험의 경우에는 다시 실험해보는 것을 고려할 수 있습니다. 회사에 새롭게 입사한 사람들에게도 도움이 됩니다. 회사의 혁신에 기여합니다. 

 

어려운 개념이나 궁금했던 내용?

Beta ramp phase? 

 

실무

DAU 가 단기간의 실험으로 살펴보기 어려운 실험이라는 부분이 인상깊었다. 

 

Ch09. Ethics in Controlled Experiments

요약

실험은 대상자에게 영향을 미칩니다. 의료 관련 실험에서만큼은 아니라도 온라인에서의 실험도 유저에게 영향을 줍니다. 실험으로 인한 유저에게 미치는 위험, 이익, 제품 선택권 등을 고려해야 합니다. 그리고 유저의 개인정보에 대한 보호도 필요합니다. IRB 의 기준을 참고할 필요가 있습니다. 

 

어려운 개념이나 궁금했던 내용?

이러한 윤리 관련 내용들은 회사에서 지표 차원에서 굳이 조사를 하는가 싶기도 하네요. 

 

실무

인스타그램의 사용이 청소년의 정신건강에 부정적인 영향을 준다는 내부 문건이 공개되었던 최근 사건이 생각이 나네요. 물론, 실험의 상황은 아니지만, 제품이 유저의 건강에 영향을 주는지 고민해보아야할 것 같습니다. 인스타그램의 사례처럼 외부에 알려질 경우 회사의 이미지에 타격을 입을 가능성이 높습니다.