A/B 테스트평가



본 내용은 # A/B테스트 기법 3강 - A/B테스트 실험 평가강의를 정리한 내용입니다.


A/B 테스트 평가

사용자 퍼널(Funnel)


목적 지표의 해석

  • 비교 전 확인
    • 실험군과 대조군(A군과 B군)의 사용자 집합 크기가 동일한가?
    • 실험군과 대조군의 사용자 분포가 크게 다르지 않는가?
  • 확인 방법
    • 집합 크기가 다름: 1:1비교대신 집합 크기를 통한 비교의 유의성 판단
    • 분포 파악: 성질이 다른 집합끼리의 비교는 무의미할 수 있음
  • 유의 사항
    • 실험으로 얻은 값은 항상 그와 동일한 결과를 담보하는 것이 아님
    • 실험 크기가 통제가 되지 않을 경우에는 사후 추정으로 판단할 수 있음


이항 분포

  • 이항 분포: 매회 사건 X가 일어날 확률이 동일한 독립시행의 경우에 있어서 확률변수X가 따르는 분포
  • 클릭 등 간단한 단일 이벤트 대상 A/B 테스트의 경우 다른 서비스 내의 요인은 동일하게 통제된 상태로 사용하므로 해당 이벤트가 발생할 확률은 동일하다고 가정하고, 사용자는 모두 독립적으로 이에 반응한다고할 때, 이는 이항분포의 조건에 들어맞음


가설 검정

  • 가설검정: 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

  • 통계적 가설
    • 특정 주장을 특정 변수(모수)에 대해서 나타낸 것을 뜻함 (예: 이 수업을 듣는 사람들의 평균 만 나이는 28살이다)
  • 절차
    • 귀무가설과 대립 가설 설정, 유의 수준 설정
    • 검정 통계량 설정
    • 기각역 설정
    • 검정 통계량 계산
    • 결과 기반 의사결정


A/B 테스트에서의 가설 검정

  • 귀무가설과 대립가설
    • 귀무가설(영가설): 실험군(Pexp)의 결과와 대조군(Pcont)의 결과 차이가 없을 것
    • 대립가설: Pexp<>Pcont/Pexp>Pcont (two-sided/one-sided)
  • 유의수준
    • 95%의 경우(일반적으로 많이 사용)(1-0.95)=0.05가 유의 수준이 됨
  • 유의확률(p-value)
    • 귀무가설이 맞을 경우에 얻을 수 있는 결과보다 더 극단적인 값이 관측될 확률
    • P-value가 작을 수록 귀무가설과 양립하는 데이터가 나타날 확률이 낮음
    • P-value가 작은 경우 귀무가설을 기각함
    • P-value의 경우 표본 크기가 커짐에 따라 값이 달라지거나 특정 경우에 값이 커지는 등의 문제가 발생할 수 있음 -> 통계적 유의성과 현실상에서의 문제를 고려해서 결과를 판단함


결괏값 비교

  • 이항 분포의 상태 비교
    • 해당 집단의 크기가 np>5, n(1-p)>5인지를 확인(일반적으로 정규 분포에 적용하기에 무난한 정도의 확인)
  • 비교군의 해당 지표에 대한 신뢰 구간을 구한 뒤, 실험군의 지표의 크기가 이 신뢰 구간에 들어가는지(유사), 벗어나는지를 확인함
    • 간단하게 독립 t-검정 등을 사용해서 유의성 및 차이 비교 가능
    • R, 파이썬, Excel 등의 함수 사용 (t.test등)
    • A/B test calculator 사이트들 (예: https://neilpatel.com/ab-testing-calculator/)에서는 기본적으로 이를 기반으로함


Case Studies

(추가

Categories:

Updated:

Comments