본문 바로가기

통계 분석

통계적 가설검정 1

 

통계적 가설 검정  :  모집단의 모수에 관하여 두가지 가설을 세우고, 표본으로부터 계산되는 통계량을 이용하여

                               옳은 가설을  판단하는 통계적 방법.

                               다르게 부르면 '가설검정' 또는 '검정'이라고 한다.

 

 

     위 의 두가지 가설을 자세히 말하면 '귀무가설(null hypothesis)' 과 '대립가설(alternative hypothesis)'이다.

 

귀무가설  :   대립가설과 반대이며, '모평균과 표본 평균이 차이가 없다.' 또는 '효과가 없다.' 라는 내용을 담는다.

 

대립가설  :  주장하고자 하는 가설로 '모평균과 표본 평균이 차이가 있다.'  또는 '효과가 있다' 라는 내용을 담는다.

 

  두 가설은 귀무가설의 가정을 바탕으로 표본에 의한 계산된 통계량이 드문 값인지로 판단이 된다. 

 

판단 표기는  ' 귀무가설을 기각한다' 와 '귀무가설을 채택한다' 로 한다.

 

 전자는 통계량 값이 드문 값이 나왔으며, 이 값이 어떤 의미가 있는 '유의하다(significant)'일 경우에  적용된다.

 후자는 전자의 경우가 아닐 시 적용된다.

 

구간에 의해서 가설이 선택되는데  구간 명은 각각 '기각역(rejjection region)',  '채택역(acceptance region)'이다. 

이름 그대로 귀무가설이 기각되는 구간과 채택되는구간을 말한다.

 

  각 구역의 판단기준은 통상 + 1.96 이상, - 1.96 이하를 기준으로 한다 .

1.96은  특정 신뢰 수준에서의  Z 점수로 주로 95% 신뢰 수준에서 사용된다.

 

 가설 검증은 기각역에 들어갈 확률을 정하고 나서 수행된다. 

 

검증에 사용 되는 용어를 살펴보자.

 

유의수준 ( level of significance )  :  어느 정도의 확률로 발생하는 사건이 드물다고 인식하여 설정.

                                                       1%,  5% 의 값(신뢰구간 99%, 95%)을 주로 이용함.

 

임곗값 ( critical value ) :  유의수준의 경계선상의 값

 

검정통계량 ( test statistic ) : 검정에 사용되는 통계량

 

P 값 ( P - value ) :  검정통계량이 임곗값 보다 작을 경우 검정통계량보다 왼쪽에 있는 영역의 면적  

 

 

가설 검정에는 두가지 오류가 존재하는데 다음과 같다.

 

 제 1종 오류  : 귀무가설이 옳을 때, 귀무가설을 기각 하는 오류

                        본래 검출 하지 말아야 할 것을 검출한것 ( = 오탐 ( false positive ))

 

 제 2종 오류  :  대립가설이 옳을 때, 귀무가설을 채택하는 오류

                         본래 검출해야 하는 것을 검출하지 못한 것 ( = 미탐 ( false  negative )) 

 

위 오류의  발생확률을 살펴보면 

 

 위험률 ( α )  : 제 1종 오류를 범할 확률 

                       유의 수준과 일치하여 제어할 수 있는 확률

 

( β )  : 제 2종 오류를 범할 확률 

          모집단의 정보에 의존하나 본래 모집단의 정보는 알 수 없으므로 

           제어할 수 없는 확률

 

검정력 ( power )  : 1  - β 

 

 

<<참고>>

「누구나 파이썬 통계분석」

'통계 분석' 카테고리의 다른 글

캐글 분석  (0) 2024.01.16