Programming Language/Python
[Python] 한글 정규표현식
이한빈 LEE HANBIN
2020. 7. 18. 03:09
한글 정규식
ㄱ ~ㅣ : 0x3131 ~ 0x314e
가 ~ 힣 : 0xac00 ~ 0xd7a3
-
문자열에서 한글 추출
# -*- coding: utf-8 -*-
import re
sentence = 'So are you happy now? Finally happy now, are you? 뭐 그대로야 난 다 잃어버린 것 같아'
# 한글 또는 공백문자가 아닌 것을 검색
korean = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글 정규식
sentence = korean.sub('', sentence) # 한글이나 공백문자가 아닌 문자를 삭제
sentence = sentence.strip()
print(sentence) # 출력: '뭐 그대로야 난 다 잃어버린 것 같아'
'뭐 그대로야 난 다 잃어버린 것 같아'
문자열에서 한글과 띄어쓰기로 작성된 문자 이외에 모든 문자를 삭제한다.
-
문자열에서 한글 단어를 리스트로 반환
# -*- coding: utf-8 -*-
import re
sentence = 'So are you happy now? Finally happy now, are you? 뭐 그대로야 난 다 잃어버린 것 같아'
# 한글 또는 공백문자가 아닌 것을 검색
pattern = r'[ㄱ-ㅣ가-힣]+' # 한글 정규식
m = re.findall(pattern, sentence)
print(m)
['뭐', '그대로야', '난', '다', '잃어버린', '것', '같아']
문자열에서 한글로 작성된 문자를 띄어쓰기 단위로 분할하여 리스트 타입으로 반환한다.