본문 바로가기
조금씩공부

Nominal p-value

by 짤랑2 2020. 7. 27.

논문을 읽다보면 '통계적 유의성'이라는 개념이 나오고 보통 p< 0.05를 기준으로 "statistically significant"하다고 표현한다. 하지만 실제 0.05라는 수치가 절대치처럼 받아들여지는 부분에 대해 통계학자와 과학자들 사이에서 논란이 있다.

실제 임상데이터를 보는데 있어 p-value가 아슬아슬 0.05를 넘어갈 때 솔직히 너무 아쉬운 것은 사실이다. 그럴 때 통계학적으로 유의하지는 않았지만 0.05값에 가까이 있음을 괜시리 강조하게 된다...

 

 

 

최근 문헌을 읽다 nominal p-value라는 한국어로 뭐라 번역해야할지도 감이 잡히지 않는 개념이 나와 검색해보았다.

 

Nominal p-value

nominal p-value는 주어진 통계학적 모델을 기반으로 계산된 관측된 유의성으로, 통계학적모델이 실제 시행된 test를 반영할 때 nominal p-value와 실제 p-value이 일치하게 된다. 모델이 부적할 때 nominal과 실제 유의성은 달라지며 종종 실제 차이를 계산할 수가 없다. 계산에 사용된 통계모델의 가정이 유지되지 않으면 nominal p-value는 의미없는 숫자가 될 수 있다. 이는 사전정의된 (고정된) sample size부터 더 복잡한 것들, 예를 들어 -오류의 정규분포, 관측치의 독립항등분포, 다중비교/다중 테스트의 부족 등- 까지 다양함. 유의성 test의 전제조건 중 어떠한 것이라도 위반한다면 nominal p-value는 작동할 수 없는 수치가 될 뿐이다.

 

내가 읽던 논문에서는 post-hoc subgroup analysis에서 사용된 개념이었는데 post-hoc subgroup분석을 하는데 있어 가정된 통계모델 내에서만 재현성이 있다 정도로 이해할 수 있을 거 같다.

 

하지만 마치 p hacking과 같이 원하는 종류의 결과를 얻을 때 까지 반복하여 데이터를 수도 없이 사후분석할 수 있는 것이 아닌가.. 이것은 연구부정행위와 연구윤리와 관련된 문제일 수 있다.

 

어쨌거나 nominally significant한 결과를 "해당 group에 대해 유의했다"라고 표현하는데에는 분명히 문제가 있다. 연구의 study design과 nominal significance임을 명확히 밝혀야 할 것이다.

 

아래 기사에서 유사하게 subgroup data를 사후분석 후 press release를 해당 그룹에서 유의하다는 표현을 함으로써 data를 오해하게 만들었다는 case를 접할 수 있다. 

https://hdsr.mitpress.mit.edu/pub/bd5k4gzf/release/2

 

P-Values on Trial: Selective Reporting of (Best Practice Guides Against) Selective Reporting · Harvard Data Science Review

Abstract In an attempt to stem the practice of reporting impressive-looking findings based on data dredging and multiple testing, the American Statistical Association's (ASA) 2016 guide to interpreting p values (Wasserstein & Lazar) warns that engaging in

hdsr.mitpress.mit.edu

연구결과를 제대로 오해없이 이해하기 위해 공부해야할 것들이 참 많다..