프로젝트/[DACON] 신용카드 사용자 연체 예측 AI 경진대회

01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

이군 2021. 5. 4. 00:46
반응형

탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 데이터 분석가가 모델링의 목적과 방향을 설정해 시간을 단축하고, 작업성을 높일 수 있습니다.

 

 

1. 정량적 분석

 

  • 훈련 데이터 셋 26,457 rows X ( 18 features + 1 target )
  • 모델의 타겟은 'credit' 으로, 일종의 신용 등급; 0, 1, 2 로 구분되며 수치가 작을 수록 연체 가능성이 낮다고 판단

 

  • 평가 데이터 셋 10,000 rows X ( 18 features )

 

2. 데이터 특성 설명

 

  • 이진형 (binary) / 분류형 (category) 특성과 수치형 (numeric) 특성을 분리
  • 각 데이터 유형에 맞는 전처리 및 모델링에 적용
  • 추가적으로, 데이터의 통계를 확인 후 어떻게 사용할지에 대한 탐색이 필요함

 

3. 데이터 분포 시각화

 

타겟의 레이블 (credit:0, 1, 2) 별 훈련 데이터 분포

 

  • 데이터 불균형 : 치중된 데이터 분포 (credit:2)
  • 불균형을 해결하기 위한 전처리 필요

 

 


Binary Feature / 이진 특성의 데이터 분포 시각화

 

gender / 성별


car / 차량 소유 여부


reality / 부동산 소유 여부


FLAG_MOBIL / 휴대 전화 보유 여부


phone / 유선 전화 소유 여부


email / 이메일 기재 여부


work_phone / 업무용 전화 소유 여부


  • 모든 이진 분류형 데이터에서 불균형 발견
  • 불균형 데이터 전처리 필요
  • 각 특성의 타겟 레이블에 따른 분포는 전체 타겟 레이블 분포와 일치
  • 단일의 이진 특성으로는 큰 의미를 부여할 수 없다.
  • FLAG_MOBIL 특성은 모든 표본에서 동일한 값

 


Categorical Features / 분류 특성의 데이터 분포 시각화

 

occyp_type

  • 데이터의 종류가 가장 많은 분류형 데이터 
  • 상당 수의 결측 데이터 (None) 확인
  • 데이터 불균형 및 다수의 희소 데이터
  • 데이터 수에 따라 타겟의 레이블 별 분포에 큰 차이를 보임

income_type

  • 하나의 데이터에 ('Working') 치중된 분포
  • 희소 데이터 확인 ('Student')
  • 타겟의 레이블 별 일정한 데이터 분포

edy_type

  • 두 개의 데이터에 치중된 분포 ('Higher education', 'Secondary / secondary special')
  • 희소 데이터 확인 ('Lower secondary', 'Academic degree')
  • 레이블 별 일정한 데이터 분포

family_type

  • 한 개의 데이터에 치중된 분포 ('Married')
  • 레이블 별 일정한 데이터 분포

house_type

  • 한 개의 데이터에 치중된 분포 ('House / apartment')

child_num

  • 몇 개의 데이터의 치중된 분포 (0, 1, 2)
  • 그 외 희소 데이터 확인
  • 치중된 데이터 내에서는 레이블 별 분포 일정

family_size

  • 몇 개 데이터에 치중된 분포 (1, 2, 3, 4)
  • 그 외 희소 데이터 확인
  • 치중된 데이터 내에서는 레이블 별 분포 일정

4. 추후 분석 방향

 

  • 데이터의 불균형 분포를 (Feature Imbalance) 해결하기 위한 방안 모색
  • 희소 데이터를 어떻게 처리할지에 대한 분석 필요
  • 다수의 분류 데이터 중 의미있는 특성 분리 필요
반응형