통계적 가설검정 1

통계적 가설 검정 : 모집단의 모수에 관하여 두가지 가설을 세우고, 표본으로부터 계산되는 통계량을 이용하여

옳은 가설을 판단하는 통계적 방법.

다르게 부르면 '가설검정' 또는 '검정'이라고 한다.

위 의 두가지 가설을 자세히 말하면 '귀무가설(null hypothesis)' 과 '대립가설(alternative hypothesis)'이다.

귀무가설 : 대립가설과 반대이며, '모평균과 표본 평균이 차이가 없다.' 또는 '효과가 없다.' 라는 내용을 담는다.

대립가설 : 주장하고자 하는 가설로 '모평균과 표본 평균이 차이가 있다.' 또는 '효과가 있다' 라는 내용을 담는다.

두 가설은 귀무가설의 가정을 바탕으로 표본에 의한 계산된 통계량이 드문 값인지로 판단이 된다.

판단 표기는 ' 귀무가설을 기각한다' 와 '귀무가설을 채택한다' 로 한다.

전자는 통계량 값이 드문 값이 나왔으며, 이 값이 어떤 의미가 있는 '유의하다(significant)'일 경우에 적용된다.

후자는 전자의 경우가 아닐 시 적용된다.

구간에 의해서 가설이 선택되는데 구간 명은 각각 '기각역(rejjection region)', '채택역(acceptance region)'이다.

이름 그대로 귀무가설이 기각되는 구간과 채택되는구간을 말한다.

각 구역의 판단기준은 통상 + 1.96 이상, - 1.96 이하를 기준으로 한다 .

1.96은 특정 신뢰 수준에서의 Z 점수로 주로 95% 신뢰 수준에서 사용된다.

가설 검증은 기각역에 들어갈 확률을 정하고 나서 수행된다.

검증에 사용 되는 용어를 살펴보자.

유의수준 ( level of significance ) : 어느 정도의 확률로 발생하는 사건이 드물다고 인식하여 설정.

1%, 5% 의 값(신뢰구간 99%, 95%)을 주로 이용함.

임곗값 ( critical value ) : 유의수준의 경계선상의 값

검정통계량 ( test statistic ) : 검정에 사용되는 통계량

P 값 ( P - value ) : 검정통계량이 임곗값 보다 작을 경우 검정통계량보다 왼쪽에 있는 영역의 면적

가설 검정에는 두가지 오류가 존재하는데 다음과 같다.

제 1종 오류 : 귀무가설이 옳을 때, 귀무가설을 기각 하는 오류

본래 검출 하지 말아야 할 것을 검출한것 ( = 오탐 ( false positive ))

제 2종 오류 : 대립가설이 옳을 때, 귀무가설을 채택하는 오류

본래 검출해야 하는 것을 검출하지 못한 것 ( = 미탐 ( false negative ))

위 오류의 발생확률을 살펴보면

위험률 ( α ) : 제 1종 오류를 범할 확률

유의 수준과 일치하여 제어할 수 있는 확률

( β ) : 제 2종 오류를 범할 확률

모집단의 정보에 의존하나 본래 모집단의 정보는 알 수 없으므로

제어할 수 없는 확률

검정력 ( power ) : 1 - β

<<참고>>

「누구나 파이썬 통계분석」

캐글 분석 (0)	2024.01.16

jianteow