A/B Test Calculator
A/B 테스트 통계 계산기
대조군 (A)
실험군 (B)
A/B Test Calculator 소개
A/B 테스트 유의성 계산기는 대조군(A)과 실험군(B)의 전환율 차이가 통계적으로 유의미한지, 아니면 우연에 의한 것인지를 판단합니다. 각 변형의 방문자 수와 전환 수를 입력하면 합동 비율(pooled proportion)을 사용한 양측 이표본 z검정으로 p값, z점수, 상대적 개선율(lift), 95% 신뢰구간을 즉시 계산합니다.
프로덕트 매니저, UX 디자이너, 마케팅 분석가, 그로스 엔지니어들은 웹사이트 변경, 이메일 제목, 광고 문구, 가격 페이지, 온보딩 플로우 등에서 A/B 테스트를 통해 데이터 기반 의사결정을 내립니다. 그러나 통계적 검증 없이 단순히 전환율을 비교하면 소표본의 무작위 변동으로 인해 실제로는 차이가 없는데 승자를 선언하는 거짓 양성(false positive)이 발생할 수 있습니다.
계산기는 Abramowitz-Stegun 다항식 근사를 사용하여 정규 누적분포함수(CDF)를 계산합니다(오차 1.5×10⁻⁷ 이하). 귀무가설(두 변형 간 차이 없음) 하에서 진짜 전환율을 추정하기 위해 두 표본의 데이터를 합산한 합동 비율을 사용합니다. 유의수준 α = 0.05(p < 0.05)에서 통계적 유의성을 판정하며, 95% 신뢰구간은 각 변형에 대해 독립적으로 표준오차의 1.96배를 사용합니다.
주요 기능
- 합동 비율을 사용한 양측 이표본 z검정으로 정확한 A/B 테스트 분석
- 소수점 4자리까지 p값 표시, 매우 유의한 경우 "<0.001" 표시
- 두 전환율 간 표준편차 거리를 나타내는 z점수 출력
- 상대적 개선율(lift): 실험군 B가 대조군 A 대비 몇 % 향상되었는지
- 대조군과 실험군 각각의 95% 신뢰구간 표시
- 명확한 유의성 판정: 통계적으로 유의(p < 0.05) 또는 불충분
- 유의 여부에 따라 녹색(유의)/노란색(불충분) 색상으로 결과 표시
- 입력값 변경 시 즉각 재계산 — 페이지 새로고침 불필요
자주 묻는 질문
A/B 테스트에서 "통계적으로 유의"하다는 것이 무엇을 의미하나요?
통계적 유의성이란 A와 B의 전환율 차이가 무작위 우연에 의해 발생했을 가능성이 낮다는 것을 의미합니다. p < 0.05는 관측된 차이가 샘플링 변동에 의한 것일 확률이 5% 미만임을 뜻합니다. 이는 두 변형이 동일하게 작동한다는 가설을 기각할 충분한 증거가 있다는 의미이지, 프로덕션에서도 동일한 성능을 보장하는 것은 아닙니다.
p값이란 무엇이며 어떻게 해석해야 하나요?
p값은 A와 B 간에 실제로 차이가 없다고 가정할 때, 관측된 것과 같거나 더 큰 차이가 나타날 확률입니다. p값이 0.03이면 결과가 우연일 확률이 3%입니다. p값이 낮을수록 귀무가설에 반하는 증거가 강합니다. 일반적으로 p < 0.05를 유의성 판정 기준으로 사용합니다.
z점수는 무엇인가요?
z점수는 관측된 전환율 차이가 차이 없음(귀무가설)에서 표준편차 몇 개만큼 떨어져 있는지를 나타냅니다. 양측 검정에서 z점수의 절댓값이 1.96을 초과하면 p < 0.05에 해당합니다. z점수의 절댓값이 클수록 두 변형 간 실제 차이에 대한 증거가 강합니다.
A/B 테스트에 필요한 표본 크기는 어느 정도인가요?
경험상 변형당 최소 100개 이상의 전환이 있어야 통계 검정이 신뢰할 만합니다. 전환율이 낮은 페이지(2% 미만)에서는 변형당 수천 명의 방문자가 필요할 수 있습니다. 탐지하고자 하는 최소 효과 크기(MDE)가 작을수록 더 많은 표본이 필요합니다. 테스트 시작 전 표본 크기 계산기를 활용하세요.
전환율 개선율(lift)이란 무엇인가요?
개선율(lift)은 대조군 A 대비 실험군 B의 상대적 전환율 향상도입니다. (전환율_B - 전환율_A) / 전환율_A × 100으로 계산합니다. +15%의 lift는 실험군 B가 대조군 A보다 15% 더 많은 방문자를 전환시킨다는 의미입니다. lift가 양수라도 p값이 0.05 이상이면 우연에 의한 결과일 수 있으므로, 항상 p값을 함께 확인하세요.
95% 신뢰구간은 어떤 의미인가요?
95% 신뢰구간은 같은 실험을 반복했을 때 95%의 경우에 실제 전환율을 포함할 것으로 예상되는 범위입니다. A와 B의 신뢰구간이 겹치지 않으면 통계적 유의성을 시각적으로 강하게 시사합니다. 각 변형에 대해 독립적으로 표준오차의 1.96배를 사용하여 계산합니다.
A/B 테스트는 언제 종료해야 하나요?
다음 두 조건을 모두 충족했을 때 종료하세요: (1) 사전에 정한 최소 표본 크기에 도달했을 때, 그리고 (2) p값이 사전 설정한 유의수준(보통 0.05) 이하일 때. 중간에 결과를 확인하다가 p < 0.05가 나오면 바로 종료하는 "p-해킹"은 거짓 양성 비율을 높입니다. 테스트 시작 전에 종료 규칙을 미리 정해두세요.
결과가 "통계적으로 유의하지 않음"이면 어떻게 해야 하나요?
유의하지 않은 결과는 A와 B가 동일하다는 증명이 아닙니다. 승자를 선언하기 위한 증거가 부족하다는 의미입니다. 더 많은 데이터를 수집하거나, 실제 효과 크기가 현재 트래픽 수준으로는 감지하기 너무 작을 수 있습니다. 테스트를 더 길게 진행하거나 더 큰 영향을 줄 수 있는 변경 사항을 검토해 보세요.