Study/통계
[통계 개념 정리 2] p-value(유의 확률)
강떡볶
2023. 8. 23. 02:34
** 본 게시글은 아래 링크를 참고하여 학습을 위해 재정리한 것이며, 모든 저작권은 아래 사이트에 있습니다.
p-value란? / p-value 사용 시 주의할 점 [연구/통계] P값과 관련된 3가지 흔한 오해 [통계] P값(P value)이 오해되거나 남용될 수 있는 상황들 |
p-value의 개념은 계속 들어도 헷갈리는 것 같다..
이 포스팅을 통해서 p-value를 완전히 이해할 수 있도록 공부하자!!!!
p-value(probability-value)란?
- 귀무가설을 우선 참이라고 가정했을 때, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률
- 데이터의 통계량이 귀무가설을 지지할 확률
= 데이터의 통계량이 귀무가설에서 주장하는 바를 얼마나 지지하는지를 나타낸 확률임- 즉, 확률이 클수록 데이터의 통계랑은 귀무가설을 강하게 지지하기 때문에 귀무가설이 참이 됨
- 반면, 이 확률이 작을수록 통계량은 귀무가설을 지지하지 않기 때문에 귀무가설은 기각됨
- 다시 말하면, p-value는 어떤 사건이 우연히 발생할 확률이라고도 할 수 있음
- 즉, p값이 0.05보다 작다 = 어떤 사건이 우연히 발생할 확률이 5%보다 작다 = 해당 사건은 우연히 일어났을 가능성이 거의 없다 = 무언가 인과관계가 있기 때문에 발생한 것이다 라고 해석할 수 있다.
- 반대로, p값이 0.05보다 크다 = 어떤 사건이 우연히 발생할 확률이 5%보다 크다 = 해당 사건은 통계적으로 인과관계가 없다 라고 해석할 수 있다.
- 귀무가설 : 사건에 인과관계가 없다(그 사건이 우연히 발생했다).
- 대립가설 : 사건에 인과관계가 있다(그 사건은 우연히 발생한 것이 아니고 뭔가 이유가 있다).
- 따라서, p-value가 5%보다 작다면, 우연히 일어날 가능성이 거의 없기 때문에 귀무가설을 기각하고 대립가설을 채택함
p-value에 대한 몇 가지 오해들
1. p-value가 크다 = '유의한 차이가 없다'로 받아들이는 경우
- 표본의 크기가 커지면 정규분포의 모양이 더욱 뾰족해지고, 표본의 크기가 줄어들면 정규분포의 모양이 완만해짐
- 이에 따라 정규 분포의 꼬리와 그 이하 면적의 크기가 달라지다보니 표본크기에 따라 같은 값을 관찰하더라도 p값이 달라짐
- 즉, 관찰된 값이 같더라도 표본 크기에 따라 통계적으로 유의하다고, 혹은 그렇지 않다고 평가될 수 있음
- 실제로 대립가설이 참이고 효과가 아주 강해도, 데이터의 표본 크기가 작으면 p-값이 높을 수 있음
- 따라서, p-값이 정해놓은 임계값(대개 0.05) 이상이라고 할 때, '귀무가설이 참'이라고 해석하는 것이 아니라, '귀무가설을 기각할 만한 근거가 충분하지 않다'고 해석하는 것이 더 적절함
- 실제로 대립가설이 옳고 효과가 아주 강해도, 데이터 표본이 적으면 p-값이 높을 수 있기 때문임
2. p-value가 작다 = '항상 유의하다'로 받아들이는 경우
-
- p-value가 작으면 '수학적'으로는 대립가설에 대한 효과를 입증한다고 할 수 있지만, 실제로는 의미가 없을 수도 있음. 실용적 유의성은 통계적 유의성과 다름
- 예를 들어, 수면제의 효과를 증명하는 실험에서 표본의 평균 수면시간이 1초 증가했다면, 전혀 의미 없가 없다고 할 수 있음
- 또한, 표본 크기가 작으면 p-value가 높을 수 있듯이 표본 크기가 충분히 크다면 낮은 p-value를 얻을 수 있음
- 비슷한 예로, p-value는 동일한테 표본크기가 다른 경우를 생각해볼 수 있음
- 예를 들어, A 임상시험에서 불면증 환자를 대상으로 4주 침치료 후, 치료군과 대조군 간의 불면증 지표 차이가 통계적으로 유의했고(p=0.02), B 임상시험에서도 동일한 설계로 동일한 p값을 얻었다고 할 때, 연구 설계가 동일하고 p값이 가기 때문에 이 2가지 결과는 동등한 무게의 근거를 갖는다고 할 수 있을까?
- 만약 A 임상시험의 피험자는 30명이고, B 임상시험의 피험자는 3,000명이라면 어느 임상시험이 더 '믿을만한' 연구 결과를 제시하고 있는 걸까?
- 결론적으로, p-value만 가지고 실험이 얼마나 믿을만한지는 확정지을 수 없음
3. 다중 검정의 문제
-
- p-value < 0.05 일지라도, 이는 1회 관찰에만 해당되는 설명임
- 1회 평가 시 관찰된 값(x)의 p-value가 5% 미만인 것과, 10회 평가 시 특정한 회차에서 관찰된 값(x)의 p-value가 5%미만인 것은 완전히 다름
- 마지막 회차에서만 유의한 차이가 발견되고, 나머지 평가일에서는 실험군과 대조군 간의 유의한 차이가 발견되지 않을 수도 있음
- 1회 평가를 시행한 연구와 비교했을 때, 여러 번 평가를 시행한 연구에서는 우연에 의해 두 집단 간에 통계적으로 유의한 차이가 발생했을 가능성이 훨씬 더 높아지게 됨
4. 여러 결과 지표를 사용하는 경우
-
- 예를 들어, 불면증 환자들을 모집해 A군에는 침치료를 하고, B군에는 거짓 침치료를 했을 때, 불면증 정도를 평가하는 지표 c에서 통계적으로 유의한 차이가 발견되었다고 했을 때, 이것을 귀무가설을 기각할 만큼 믿을만한 결과라고 확신할 수 있을까?
- 확신하기 어려운 상황임. 만약 이 연구에서, 불면증 평가 지표 c뿐만 아니라 a, b, c, d, e, f, g, h, i, j 총 10가지 지표를 사용했는데, c를 제외한 나머지 지표에서는 통계적으로 유의한 차이가 관찰되지 않았고 c에서만 유의한 차이가 관찰되었을 수도 있음
- 불면증 평가 지표 10개 중, 적어도 1가지에서 p-value < 0.05일 가능성이, 평가 지표 1개만 사용했을 때보다 매우 높아지게 됨
- 때문에, 여러 평가 지표들 중에서, 가장 중요한 지표(primary outcome)가 무엇인지 한 가지를 정해야 함
- 1가지 지표에서의 유의한 차이를 놓고 그것이 의미 있는 결과라고 막연히 받아들이는 것이 아니라, 우연히 통계적으로 유의한 차이가 발생했을 가능성을 염두에 두어야 함
- primary outcome이 여러 개라면, Bonferroni의 방법을 채택할 수 있음
- primary outcome이 2개라면 0.05/2를 기준값으로, 3개라면 0.05/3을 기준값으로 사용하는 것임
위와 같은 오류를 피할 수 있는 방법
- 데이터 표본의 크기를 살펴본다. 표본의 크기가 아주 작거나 크지는 않은지 확인한다.
- 표본 평균의 절대적인 증가값을 살펴본다. (통계적 유의성뿐만 아니라 실용적 유의성도 있는지 확인하기 위해)
- p-value 뿐만 아니라, 신뢰구간(일반적으로 95%)도 함께 확인한다.
- p-vaue 자체는 통계적 유의성이라는 관점에서는 쓸모가 있지만, 실용적인 의미는 전달하지 않는 수치임
- 그래서 이를 보완하기 위해서 신뢰구간(confidence interval)을 함께 사용하는 것이 좋은 대안책이 될 수 있음
- 연구자 입장에서 연구의 설계와 방법론의 질, p-value, 신뢰구간 등을 고려해야 한다.