반응형
탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 데이터 분석가가 모델링의 목적과 방향을 설정해 시간을 단축하고, 작업성을 높일 수 있습니다.
1. 정량적 분석
- 훈련 데이터 셋 26,457 rows X ( 18 features + 1 target )
- 모델의 타겟은 'credit' 으로, 일종의 신용 등급; 0, 1, 2 로 구분되며 수치가 작을 수록 연체 가능성이 낮다고 판단
- 평가 데이터 셋 10,000 rows X ( 18 features )
2. 데이터 특성 설명
- 이진형 (binary) / 분류형 (category) 특성과 수치형 (numeric) 특성을 분리
- 각 데이터 유형에 맞는 전처리 및 모델링에 적용
- 추가적으로, 데이터의 통계를 확인 후 어떻게 사용할지에 대한 탐색이 필요함
3. 데이터 분포 시각화
타겟의 레이블 (credit:0, 1, 2) 별 훈련 데이터 분포
- 데이터 불균형 : 치중된 데이터 분포 (credit:2)
- 불균형을 해결하기 위한 전처리 필요
Binary Feature / 이진 특성의 데이터 분포 시각화
gender / 성별
car / 차량 소유 여부
reality / 부동산 소유 여부
FLAG_MOBIL / 휴대 전화 보유 여부
phone / 유선 전화 소유 여부
email / 이메일 기재 여부
work_phone / 업무용 전화 소유 여부
- 모든 이진 분류형 데이터에서 불균형 발견
- 불균형 데이터 전처리 필요
- 각 특성의 타겟 레이블에 따른 분포는 전체 타겟 레이블 분포와 일치
- 단일의 이진 특성으로는 큰 의미를 부여할 수 없다.
- FLAG_MOBIL 특성은 모든 표본에서 동일한 값
Categorical Features / 분류 특성의 데이터 분포 시각화
occyp_type
- 데이터의 종류가 가장 많은 분류형 데이터
- 상당 수의 결측 데이터 (None) 확인
- 데이터 불균형 및 다수의 희소 데이터
- 데이터 수에 따라 타겟의 레이블 별 분포에 큰 차이를 보임
income_type
- 하나의 데이터에 ('Working') 치중된 분포
- 희소 데이터 확인 ('Student')
- 타겟의 레이블 별 일정한 데이터 분포
edy_type
- 두 개의 데이터에 치중된 분포 ('Higher education', 'Secondary / secondary special')
- 희소 데이터 확인 ('Lower secondary', 'Academic degree')
- 레이블 별 일정한 데이터 분포
family_type
- 한 개의 데이터에 치중된 분포 ('Married')
- 레이블 별 일정한 데이터 분포
house_type
- 한 개의 데이터에 치중된 분포 ('House / apartment')
child_num
- 몇 개의 데이터의 치중된 분포 (0, 1, 2)
- 그 외 희소 데이터 확인
- 치중된 데이터 내에서는 레이블 별 분포 일정
family_size
- 몇 개 데이터에 치중된 분포 (1, 2, 3, 4)
- 그 외 희소 데이터 확인
- 치중된 데이터 내에서는 레이블 별 분포 일정
4. 추후 분석 방향
- 데이터의 불균형 분포를 (Feature Imbalance) 해결하기 위한 방안 모색
- 희소 데이터를 어떻게 처리할지에 대한 분석 필요
- 다수의 분류 데이터 중 의미있는 특성 분리 필요
반응형
'프로젝트 > [DACON] 신용카드 사용자 연체 예측 AI 경진대회' 카테고리의 다른 글
02_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (2) (0) | 2021.05.06 |
---|---|
00_ 신용카드 사용자 연체 예측 AI 경진대회 (0) | 2021.05.03 |