목록전체 글 (2)
1. Data Analysis import pandas as pd trainset = pd.read_csv('./datasets/train.csv') test = pd.read_csv('./datasets/test.csv') trainset.head() 타이타닉 데이터는 위와 같이 12개의 column을 갖고있다. Survived는 모델의 학습목표로 다른 값들과 Survived의 상관관계를 분석하고, 적절한 변수들을 모델에 학습시켜 생존여부를 예측하는 것이 이번 과제의 목표이다. Data Dictionary Survived : 0 = No, 1 = Yes 생존 여부를 나타낸다. 모델의 target 값이 된다. Pclass : Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd 좌석의 등..
한글 정규식 ㄱ ~ㅣ : 0x3131 ~ 0x314e 가 ~ 힣 : 0xac00 ~ 0xd7a3 문자열에서 한글 추출 # -*- coding: utf-8 -*- import re sentence = 'So are you happy now? Finally happy now, are you? 뭐 그대로야 난 다 잃어버린 것 같아' # 한글 또는 공백문자가 아닌 것을 검색 korean = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글 정규식 sentence = korean.sub('', sentence) # 한글이나 공백문자가 아닌 문자를 삭제 sentence = sentence.strip() print(sentence) # 출력: '뭐 그대로야 난 다 잃어버린 것 같아' '뭐 그대로야 난 다 잃어버..