머신러닝 4

02_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (2)

지난 글에서 분류형 데이터 (Categorical Data) 특성 별로 시각화하여 살펴보았습니다. 전반적으로 데이터 불균형이 확인되었으며, 희소한 데이터도 많아 모델 생성 및 학습 전 이를 해결해야할 것 같습니다. 분류형 데이터의 EDA 및 시각화 01_ 탐색적 데이터 분석 (EDA) - 데이터 시각화 (1) 탐색적 데이터 분석 (Exploratory Data Analysis) 이란 본격적인 모델링을 시작하기 전, 데이터에 대한 인사이트를 얻기 위해 데이터의 종류 및 분포 등을 확인하는 작업입니다. 이 과정을 거침으로서 zngsup.tistory.com 이번 포스팅에서는 수치형 데이터를 (Numeric Data) 시각화해 데이터의 특성을 시각화로 확인합니다. 분류형 데이터와는 다르게 수치형 데이터는 '연..

00_ 신용카드 사용자 연체 예측 AI 경진대회

데이터 분석가 입문자가 DACON의 경쟁 프로젝트에 참여해 분석한 내용을 기록합니다. 입문한지 두 달되어 코드도 지저분하고, 분석도 다소 부족하지만, 하나의 분석 프로젝트를 AtoZ 해본다는 생각으로 기록할 생각입니다. 부족한 부분에 대한 피드백은 댓글로 남겨주시면 감사드립니다. 신용카드 사용자 연체 예측 AI 경진대회 대회 링크 : https://www.dacon.io/competitions/official/235713/overview/description/ 신용카드 사용자 연체 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 신용카드 사용자 정보를 이용해 신규 가입자의 연체 가능성을 확인하는 알고리즘을 개발하는 프로젝트 입니다. 총 26,457개..

교차 검증 (Cross Validation) <sklearn.model_selection.cross_validate>

이전 포스팅에서 머신러닝 모델을 객관적으로 평가하기 위해 모델 학습 과정에서 데이터의 분리 필요성에 대해 설파했다.일반적인 데이터 분리에 대해서는 아래의 링크로 이동해 확인할 수 있다. 사이킷런의 함수를 이용해 데이터 분리하기훈련셋과 평가셋 분리 서론 주어진 데이터에 대해 머신 러닝 모델을 만들고 학습시키기 위해서는 우선 데이터를 분리할 필요가 있다. 데이터를 분리하지 않고 학습과 평가에 모두 사용하는 것은, 마치 중간 고사 문제zngsup.tistory.com 이번 포스팅에서는 모델 평가에 좀 더 객관성을 부여하기 위한 데이터 처리 방법인'교차 검증 (Cross Validation)'에 대해 알아봅니다. 서론단어가 주는 의미 그대로 '교차 검증'이란 분리한 데이터를 교차하여 모델을 검증하는 겁니다. 함..

훈련셋과 평가셋 분리 <sklearn.model_selection.train_test_split>

서론주어진 데이터에 대해 머신 러닝 모델을 만들고 학습시키기 위해서는 우선 데이터를 분리할 필요가 있다. 데이터를 분리하지 않고 학습과 평가에 모두 사용하는 것은, 마치 중간 고사 문제를 미리 풀고 시험을 보는 것과 같다.그런 식으로 평가한다면, 모델의 정확도는 분명 높을 것이고, 평가에 대한 객관성도 떨어진다. 또한 이렇게 만들어진 모델은 주어진 데이터데 대한 '과적합 (Overfitting)' 판단이 어려울 수 있다. 따라서 모델을 생성하기 전,주어진 데이터를 학습할 데이터와 (trining set) 평가할 데이터로 (test set) 분리해야한다. 본론사이킷런 라이브러리에는 훈련 데이터와 학습 데이터를 분리해주는 함수가 있다. 이 함수를 이용하면 원본 데이터를 알아서 훈련 세트와 테스트 세트로 나눠..