Question 1

A/B 테스트에서 "통계적으로 유의"하다는 것이 무엇을 의미하나요?

Accepted Answer

통계적 유의성이란 A와 B의 전환율 차이가 무작위 우연에 의해 발생했을 가능성이 낮다는 것을 의미합니다. p < 0.05는 관측된 차이가 샘플링 변동에 의한 것일 확률이 5% 미만임을 뜻합니다. 이는 두 변형이 동일하게 작동한다는 가설을 기각할 충분한 증거가 있다는 의미이지, 프로덕션에서도 동일한 성능을 보장하는 것은 아닙니다.

Question 2

p값이란 무엇이며 어떻게 해석해야 하나요?

Accepted Answer

p값은 A와 B 간에 실제로 차이가 없다고 가정할 때, 관측된 것과 같거나 더 큰 차이가 나타날 확률입니다. p값이 0.03이면 결과가 우연일 확률이 3%입니다. p값이 낮을수록 귀무가설에 반하는 증거가 강합니다. 일반적으로 p < 0.05를 유의성 판정 기준으로 사용합니다.

Question 3

z점수는 무엇인가요?

Accepted Answer

z점수는 관측된 전환율 차이가 차이 없음(귀무가설)에서 표준편차 몇 개만큼 떨어져 있는지를 나타냅니다. 양측 검정에서 z점수의 절댓값이 1.96을 초과하면 p < 0.05에 해당합니다. z점수의 절댓값이 클수록 두 변형 간 실제 차이에 대한 증거가 강합니다.

Question 4

A/B 테스트에 필요한 표본 크기는 어느 정도인가요?

Accepted Answer

경험상 변형당 최소 100개 이상의 전환이 있어야 통계 검정이 신뢰할 만합니다. 전환율이 낮은 페이지(2% 미만)에서는 변형당 수천 명의 방문자가 필요할 수 있습니다. 탐지하고자 하는 최소 효과 크기(MDE)가 작을수록 더 많은 표본이 필요합니다. 테스트 시작 전 표본 크기 계산기를 활용하세요.

Question 5

전환율 개선율(lift)이란 무엇인가요?

Accepted Answer

개선율(lift)은 대조군 A 대비 실험군 B의 상대적 전환율 향상도입니다. (전환율_B - 전환율_A) / 전환율_A × 100으로 계산합니다. +15%의 lift는 실험군 B가 대조군 A보다 15% 더 많은 방문자를 전환시킨다는 의미입니다. lift가 양수라도 p값이 0.05 이상이면 우연에 의한 결과일 수 있으므로, 항상 p값을 함께 확인하세요.

Question 6

95% 신뢰구간은 어떤 의미인가요?

Accepted Answer

95% 신뢰구간은 같은 실험을 반복했을 때 95%의 경우에 실제 전환율을 포함할 것으로 예상되는 범위입니다. A와 B의 신뢰구간이 겹치지 않으면 통계적 유의성을 시각적으로 강하게 시사합니다. 각 변형에 대해 독립적으로 표준오차의 1.96배를 사용하여 계산합니다.

Question 7

A/B 테스트는 언제 종료해야 하나요?

Accepted Answer

다음 두 조건을 모두 충족했을 때 종료하세요: (1) 사전에 정한 최소 표본 크기에 도달했을 때, 그리고 (2) p값이 사전 설정한 유의수준(보통 0.05) 이하일 때. 중간에 결과를 확인하다가 p < 0.05가 나오면 바로 종료하는 "p-해킹"은 거짓 양성 비율을 높입니다. 테스트 시작 전에 종료 규칙을 미리 정해두세요.

Question 8

결과가 "통계적으로 유의하지 않음"이면 어떻게 해야 하나요?

Accepted Answer

유의하지 않은 결과는 A와 B가 동일하다는 증명이 아닙니다. 승자를 선언하기 위한 증거가 부족하다는 의미입니다. 더 많은 데이터를 수집하거나, 실제 효과 크기가 현재 트래픽 수준으로는 감지하기 너무 작을 수 있습니다. 테스트를 더 길게 진행하거나 더 큰 영향을 줄 수 있는 변경 사항을 검토해 보세요.

A/B Test Calculator

대조군 (A)

실험군 (B)

A/B Test Calculator 소개

주요 기능

자주 묻는 질문