데이터 분석 3

02_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (2)

지난 글에서 분류형 데이터 (Categorical Data) 특성 별로 시각화하여 살펴보았습니다. 전반적으로 데이터 불균형이 확인되었으며, 희소한 데이터도 많아 모델 생성 및 학습 전 이를 해결해야할 것 같습니다. 분류형 데이터의 EDA 및 시각화 01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1) 탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 zngsup.tistory.com 이번 포스팅에서는 수치형 데이터를 (Numeric Data) 시각화해 데이터의 특성을 시각화로 확인합니다. 분류형 데이터와는 다르게 수치형 데이터는 '연..

01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1)

탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 데이터 분석가가 모델링의 목적과 방향을 설정해 시간을 단축하고, 작업성을 높일 수 있습니다. 1. 정량적 분석 훈련 데이터 셋 26,457 rows X ( 18 features + 1 target ) 모델의 타겟은 'credit' 으로, 일종의 신용 등급; 0, 1, 2 로 구분되며 수치가 작을 수록 연체 가능성이 낮다고 판단 평가 데이터 셋 10,000 rows X ( 18 features ) 2. 데이터 특성 설명 이진형 (binary) / 분류형 (category) 특성과 수치형 (num..

훈련셋과 평가셋 분리 <sklearn.model_selection.train_test_split>

서론주어진 데이터에 대해 머신 러닝 모델을 만들고 학습시키기 위해서는 우선 데이터를 분리할 필요가 있다. 데이터를 분리하지 않고 학습과 평가에 모두 사용하는 것은, 마치 중간 고사 문제를 미리 풀고 시험을 보는 것과 같다.그런 식으로 평가한다면, 모델의 정확도는 분명 높을 것이고, 평가에 대한 객관성도 떨어진다. 또한 이렇게 만들어진 모델은 주어진 데이터데 대한 '과적합 (Overfitting)' 판단이 어려울 수 있다. 따라서 모델을 생성하기 전,주어진 데이터를 학습할 데이터와 (trining set) 평가할 데이터로 (test set) 분리해야한다. 본론사이킷런 라이브러리에는 훈련 데이터와 학습 데이터를 분리해주는 함수가 있다. 이 함수를 이용하면 원본 데이터를 알아서 훈련 세트와 테스트 세트로 나눠..