프로젝트 3

02_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (2)

지난 글에서 분류형 데이터 (Categorical Data) 특성 별로 시각화하여 살펴보았습니다. 전반적으로 데이터 불균형이 확인되었으며, 희소한 데이터도 많아 모델 생성 및 학습 전 이를 해결해야할 것 같습니다. 분류형 데이터의 EDA 및 시각화 01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1) 탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 zngsup.tistory.com 이번 포스팅에서는 수치형 데이터를 (Numeric Data) 시각화해 데이터의 특성을 시각화로 확인합니다. 분류형 데이터와는 다르게 수치형 데이터는 '연..

01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 데이터 분석가가 모델링의 목적과 방향을 설정해 시간을 단축하고, 작업성을 높일 수 있습니다. 1. 정량적 분석 훈련 데이터 셋 26,457 rows X ( 18 features + 1 target ) 모델의 타겟은 'credit' 으로, 일종의 신용 등급; 0, 1, 2 로 구분되며 수치가 작을 수록 연체 가능성이 낮다고 판단 평가 데이터 셋 10,000 rows X ( 18 features ) 2. 데이터 특성 설명 이진형 (binary) / 분류형 (category) 특성과 수치형 (num..

00_ 신용카드 사용자 연체 예측 AI 경진대회

데이터 분석가 입문자가 DACON의 경쟁 프로젝트에 참여해 분석한 내용을 기록합니다. 입문한지 두 달되어 코드도 지저분하고, 분석도 다소 부족하지만, 하나의 분석 프로젝트를 AtoZ 해본다는 생각으로 기록할 생각입니다. 부족한 부분에 대한 피드백은 댓글로 남겨주시면 감사드립니다. 신용카드 사용자 연체 예측 AI 경진대회 대회 링크 : https://www.dacon.io/competitions/official/235713/overview/description/ 신용카드 사용자 연체 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 신용카드 사용자 정보를 이용해 신규 가입자의 연체 가능성을 확인하는 알고리즘을 개발하는 프로젝트 입니다. 총 26,457개..