빅데이터

캐글 타이타닉 생존자를 예측하기 맛보기

Nickman 2023. 9. 4. 10:41

https://www.kaggle.com/competitions/2019-1st-ml-month-with-kakr/overview

 

2019 1st ML month with KaKR | Kaggle

 

www.kaggle.com

타이타닉 참사에 탑승객의 생존 유무를 예측하는 것이 목적입니다.

제출 파일에는 testset에 있는 418명의 탑승객의 예측된 생존유무 정보가 들어가야 하며, 다음과 같은 형식이 되어야 합니다.

Passengerld,Survived

892,1

893,0

 

Dataset Description

train.csv - 예측 모델을 만들기 위해 사용하는 학습셋입니다. 각 탑승객의 신상 정보와 ground truth(생존유무)가 주어지며, 신상정보 및 파생변수를 토대로 생존유무를 예측하는 모델을 만듭니다. 

test.csv - 학습셋으로 만든 모델을 가지고 예측할 탑승객 정보가 담긴 테스트셋입니다. 

sampleSubmission.csv - 제출시 사용할 수 있는 csv 파일입니다. 

 

Data fields

survival - 생존유무, target 값. (0=사망, 1=생존)

pclass - 티켓 클래스. (1=1st, 2=2nd, 3=3rd)

sex - 성별

Age - 나이(세)

sibsp - 함께 탑승한 형제자매, 배우자 수 총합

parch - 함께 탑승한 부모, 자녀 수 총합

ticket - 티켓넘버

fare - 탑승 요금

cabin - 객실 넘버

embarked - 탑승 항

 

https://www.kaggle.com/code/daehungwak/guide-kor-dg

 

[GUIDE, KOR, DG] 데이터 분석 어떻게 시작해야 하나요?

Explore and run machine learning code with Kaggle Notebooks | Using data from 2019 1st ML month with KaKR

www.kaggle.com

https://colab.research.google.com/drive/1cqv5yD9uLHHrVFL-TGM9NPSD1ZyF4AC1#scrollTo=fyCuGDtGzYkZ

 

titanic.ipynb

Colaboratory notebook

colab.research.google.com

  1. 데이터셋 확인 - 대부분의 캐글 데이터들은 잘 정제되어 있습니다. 하지만 가끔 null data가 존재합니다. 이를 확인하고, 향후 수정합니다.
  2. 탐색적 데이터 분석(exploratory data analysis) - 여러 feature 들을 개별적으로 분석하고, feature 들 간의 상관관계를 확인합니다. 여러 시각화 툴을 사용하여 insight를 얻습니다.
  3. feature engineering - 모델을 세우기에 앞서, 모델의 성능을 높일 수 있도록 feature 들을 engineering 합니다. one-hot encoding, class로 나누기, 구간으로 나누기, 텍스트 데이터 처리 등을 합니다.
  4. model 만들기 - sklearn 을 사용해 모델을 만듭니다. 파이썬에서 머신러닝을 할 때는 sklearn 을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있습니다. 물론 딥러닝을 위해 tensorflow, pytorch 등을 사용할 수 도 있습니다.
  5. 모델 학습 및 예측 - trainset 을 가지고 모델을 학습시킨 후, testset 을 가지고 prediction 합니다.
  6. 모델 평가 - 예측 성능이 원하는 수준인지 판단합니다. 풀려는 문제에 따라 모델을 평가하는 방식도 달라집니다. 학습된 모델이 어떤 것을 학습하였는 지 확인해봅니다.