본문 바로가기

통계 분석

캐글 분석

 캐글의  Binary Classification with a Bank Churn Dataset 자료를 이용해서 신용도를 구할 수 있는지 흥미가 생겨서 이를 분석주제로 삼고 분석을 실시 하였다.

 

1. 기본 검증

 

 신용평가에 미치는 주요 요인을 분석하기 위해 실시하는 분석이므로 신용도를 종속변수로 하고,  관련 있을 것으로 추정하여 선정한 급여, 나이, 계좌 잔고를 독립변수로 하여 독립변수  t -검정을 실시하였다.

 신용도와 각 변수와의 관계를 아래의 기본식으로  검증하였다.
 

df = pd.read_csv('/kaggle/input/playground-series-s4e1/train.csv')
sample1 = np.array(df['CreditScore'])
sample2 = np.array(df['EstimatedSalary'])

 

# 독립 표본 t-검정 수행

t_statistic, p_value = ttest_ind(sample1, sample2)

# 결과 출력
print(f"t-statistic: {t_statistic}")
print(f"P-value: {p_value}")

# 유의수준 0.05에서의 유의성 검정
alpha = 0.05
if p_value < alpha:
    print("평균 차이는 통계적으로 유의미합니다.")
else:
    print("평균 차이는 통계적으로 유의미하지 않습니다.")

 

기본식으로 살펴본 겁정 결과는 다음과 같다.
 

1 - 1. 신용도와 급여의 관계 

t-statistic: -904.0264778253405
P-value: 0.0
평균 차이는 통계적으로 유의미합니다.

 

1.2. 신용도와 나이와의 관계 

t-statistic: 3116.8121133359036
P-value: 0.0
평균 차이는 통계적으로 유의미합니다.

 

1.3. 신용도와 계좌잔고와의 관계 

t-statistic: -354.53290166917975
P-value: 0.0
평균 차이는 통계적으로 유의미합니다.

 

 

2.  가설 설정 및 검증

 

위 결과를 가지고 좀 더 세부적으로 살펴 보기 위해  신용도의 평균과 각 변수들의 평균이 의미가 있는지 살펴보기로 하였다.

 설정한 가설은 총 세가지로 하였으며 각 가설의 귀무, 대립 가설은 다음과 같다. 

  가설1. 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 급여 평균에 차이가 있는가?

  가설2. 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 나이 평균에 차이가 있는가?

  가설3. 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 잔고 평균에 차이가 있는가?

        

         귀무가설 (H0) : 신용도가 높은 그룹은 신용도가 낮은 그룹의 급여 / 나이 / 잔고 평균에 차이가 없다.

         대립가설 (H1) : 신용도가 높은 그룹은 신용도가 낮은 그룹의 급여 / 나이 / 잔고 평균에 차이가 있다.

기본식은 다음과 같이 설정하여 가설을 검증하였다.

 

# 신용도가 낮은 그룹과 높은 그룹 나누기

low_credit_group = df[df['CreditScore'] < df['CreditScore'].mean()]['EstimatedSalary']
high_credit_group = df[df['CreditScore'] >= df['CreditScore'].mean()]['EstimatedSalary']

 

# 독립 표본 t-검정 수행

t_statistic, p_value = ttest_ind(low_credit_group, high_credit_group)

 

# 결과 출력

print(f"t-statistic: {t_statistic}")
print(f"P-value: {p_value}")

 

# 유의수준 0.05세서 유의성 검정

alpha = 0.05
if p_value < alpha:
    print("급여 평균에 유의미한 차이가 있습니다.")
else:
    print("급여 평균에 유의미한 차이가 없습니다.")

 

2 - 1 : 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 급여 평균에 차이가 있는가?

t-statistic: 0.13963793478136144
P-value: 0.8889462370214061
급여 평균에 유의미한 차이가 없습니다.


2 -2 : 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 나이 평균에 차이가 있는가?

t-statistic: 5.718766662641372
P-value: 1.0748451061700209e-08
나이 평균에 유의미한 차이가 있습니다.


2 - 3: 신용도가 평균보다 낮은 그룹과 평균보다 높은 그룹의 잔고 평균에 차이가 있는가?

t-statistic: 1.0463838707151039
P-value: 0.2953853690654792
잔고 평균에 유의미한 차이가 없습니다.

 

세가지의 검증결과  3가지 중 유일하게 '나이'만 평균 비교로 유의미 하다고 나왔다.

 

 

3. 시각화

 

 가설 중 유의미 하다고 판단된 나이와 신용도에 대하 추가 분석을 실시하였다.

 

 

4. 결론

 

 연령대에 의한 신용도의 시각화 분석을 보면 30~40 대가 가장 신용도가 높으며 60대가 넘어 가실 이상치가  발생하는 것도 확인이 되었다. 

신용도에 관하여 다른 분석도 진행해 보는 것도 좋을것 같다.

'통계 분석' 카테고리의 다른 글

통계적 가설검정 1  (0) 2024.01.11