01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

프로젝트/[DACON] 신용카드 사용자 연체 예측 AI 경진대회

01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

이군 2021. 5. 4. 00:46

탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 데이터 분석가가 모델링의 목적과 방향을 설정해 시간을 단축하고, 작업성을 높일 수 있습니다.

1. 정량적 분석

훈련 데이터 셋 26,457 rows X ( 18 features + 1 target )
모델의 타겟은 'credit' 으로, 일종의 신용 등급; 0, 1, 2 로 구분되며 수치가 작을 수록 연체 가능성이 낮다고 판단

평가 데이터 셋 10,000 rows X ( 18 features )

2. 데이터 특성 설명

이진형 (binary) / 분류형 (category) 특성과 수치형 (numeric) 특성을 분리
각 데이터 유형에 맞는 전처리 및 모델링에 적용
추가적으로, 데이터의 통계를 확인 후 어떻게 사용할지에 대한 탐색이 필요함

3. 데이터 분포 시각화

타겟의 레이블 (credit:0, 1, 2) 별 훈련 데이터 분포

데이터 불균형 : 치중된 데이터 분포 (credit:2)
불균형을 해결하기 위한 전처리 필요

Binary Feature / 이진 특성의 데이터 분포 시각화

gender / 성별

car / 차량 소유 여부

reality / 부동산 소유 여부

FLAG_MOBIL / 휴대 전화 보유 여부

phone / 유선 전화 소유 여부

email / 이메일 기재 여부

work_phone / 업무용 전화 소유 여부

모든 이진 분류형 데이터에서 불균형 발견
불균형 데이터 전처리 필요
각 특성의 타겟 레이블에 따른 분포는 전체 타겟 레이블 분포와 일치
단일의 이진 특성으로는 큰 의미를 부여할 수 없다.
FLAG_MOBIL 특성은 모든 표본에서 동일한 값

Categorical Features / 분류 특성의 데이터 분포 시각화

occyp_type

데이터의 종류가 가장 많은 분류형 데이터
상당 수의 결측 데이터 (None) 확인
데이터 불균형 및 다수의 희소 데이터
데이터 수에 따라 타겟의 레이블 별 분포에 큰 차이를 보임

income_type

하나의 데이터에 ('Working') 치중된 분포
희소 데이터 확인 ('Student')
타겟의 레이블 별 일정한 데이터 분포

edy_type

두 개의 데이터에 치중된 분포 ('Higher education', 'Secondary / secondary special')
희소 데이터 확인 ('Lower secondary', 'Academic degree')
레이블 별 일정한 데이터 분포

family_type

한 개의 데이터에 치중된 분포 ('Married')
레이블 별 일정한 데이터 분포

house_type

한 개의 데이터에 치중된 분포 ('House / apartment')

child_num

몇 개의 데이터의 치중된 분포 (0, 1, 2)
그 외 희소 데이터 확인
치중된 데이터 내에서는 레이블 별 분포 일정

family_size

몇 개 데이터에 치중된 분포 (1, 2, 3, 4)
그 외 희소 데이터 확인
치중된 데이터 내에서는 레이블 별 분포 일정

4. 추후 분석 방향

데이터의 불균형 분포를 (Feature Imbalance) 해결하기 위한 방안 모색
희소 데이터를 어떻게 처리할지에 대한 분석 필요
다수의 분류 데이터 중 의미있는 특성 분리 필요

저작자표시 비영리 변경금지 (새창열림)

'프로젝트 > [DACON] 신용카드 사용자 연체 예측 AI 경진대회' 카테고리의 다른 글

02_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (2) (0)	2021.05.06
00_ 신용카드 사용자 연체 예측 AI 경진대회 (0)	2021.05.03

현재글01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

블로거이군

아직도 꿈 많은 어른이 아일랜드 식 직업관 #요리사 #블로거 #데이터분석가

독학, 플랜 취소, 머신러닝, Python, 파이썬, 포토샵, 프로그램 오류로 인하여 요청한 사항을 완료할 수 없습니다, 프로그래밍, 포토샵 결제, Photoshop, Creative Cloud, 나도코딩, SSD, 데이터 분석, Windows, 프리미어 프로, Adobe, 무료 취소, 플랜 변경, CPU,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

블로거이군