p-값은 왜 0.05인가?
0.05라는 숫자의 기원
통계학을 조금이라도 공부한 사람이라면 “p < 0.05면 유의하다”는 말을 들어봤을 것이다. 그런데 왜 하필 0.05일까? 0.04는 안 되고, 0.06은 안 되는 이유가 있는 걸까?
사실 0.05라는 기준은 로널드 피셔(Ronald Fisher) 가 1925년 《Statistical Methods for Research Workers》에서 “편의상 기준으로 삼기 좋다”고 제안한 데서 비롯됐다. 엄밀한 수학적 근거가 있는 숫자가 아니다. 피셔 본인도 이 숫자를 절대적인 기준으로 삼으라고 한 것이 아니었다.
귀무가설이 참이라고 가정했을 때, 실제로 관측된 결과 혹은 그보다 더 극단적인 결과가 나올 확률.
p-값은 “효과의 크기”나 “가설이 옳을 확률”이 아니다. 데이터와 귀무가설 사이의 양립 가능성을 나타내는 수치다.
p-값이 말하는 것과 말하지 않는 것
p-값을 둘러싼 오해는 통계학에서 가장 오래된 논쟁 중 하나다.
| 잘못된 해석 | 올바른 해석 |
|---|---|
| p = 0.03 → “귀무가설이 거짓일 확률 97%” | p = 0.03 → “귀무가설 하에서 이 데이터가 나올 확률 3% 이하” |
| p > 0.05 → “효과 없음을 증명” | p > 0.05 → “귀무가설을 기각할 근거가 충분하지 않음” |
| p가 작을수록 효과가 크다 | p가 작은 것은 표본 크기와도 관련 있음 |
p-값은 효과의 크기(effect size)를 말하지 않는다.
표본이 충분히 크면 아무리 작은 차이도 p < 0.05가 된다. 반대로 표본이 작으면 실질적으로 큰 차이가 있어도 유의하지 않게 나올 수 있다.
“유의하다”와 “중요하다”는 다르다
2019년 미국통계학회(ASA)는 p-값만으로 결론을 내리는 관행에 경고하는 성명을 발표했다. 800명 이상의 통계학자가 서명한 이 성명의 핵심 메시지는 하나였다.
“통계적 유의성”이라는 이분법적 기준을 버려라.
효과의 유무는 p-값 하나로 결정할 수 없다. 효과의 크기(effect size), 신뢰구간, 연구 맥락, 반복 가능성을 함께 고려해야 한다.
결론: 숫자보다 이야기가 먼저다
p-값은 분석의 끝이 아니라 출발점이다. “p < 0.05가 나왔으니 됐다”가 아니라, “이 결과가 실질적으로 무슨 의미인가”를 묻는 것이 통계의 본래 역할이다.
- p-값과 함께 효과 크기(Cohen’s d, η² 등)를 항상 보고한다
- p > 0.05를 “효과 없음”으로 결론 내리지 않는다
- 표본 크기가 매우 크면 p-값보다 신뢰구간의 범위를 더 주목한다
- 사전에 유의수준을 정하고(0.05 또는 0.01), 결과를 본 뒤 기준을 바꾸지 않는다
0.05라는 숫자에 지나치게 매달리지 않고, 데이터가 들려주는 이야기에 귀를 기울이는 것—그것이 좋은 통계 분석의 시작이다.
참고: Ronald Fisher (1925), ASA Statement on p-values (2019)