Programming Language/Python

[Python] 한글 정규표현식

이한빈 LEE HANBIN 2020. 7. 18. 03:09

한글 정규식

ㄱ ~ㅣ  :  0x3131 ~ 0x314e

가 ~ 힣 :  0xac00 ~ 0xd7a3


  • 문자열에서 한글 추출

# -*- coding: utf-8 -*-
import re
sentence = 'So are you happy now? Finally happy now, are you? 뭐 그대로야 난 다 잃어버린 것 같아'

# 한글 또는 공백문자가 아닌 것을 검색
korean = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글 정규식
sentence = korean.sub('', sentence) # 한글이나 공백문자가 아닌 문자를 삭제
sentence = sentence.strip()
print(sentence) # 출력: '뭐 그대로야 난 다 잃어버린 것 같아'
'뭐 그대로야 난 다 잃어버린 것 같아'

 

문자열에서 한글과 띄어쓰기로 작성된 문자 이외에 모든 문자를 삭제한다.


  • 문자열에서 한글 단어를 리스트로 반환

# -*- coding: utf-8 -*-
import re
sentence = 'So are you happy now? Finally happy now, are you? 뭐 그대로야 난 다 잃어버린 것 같아'

# 한글 또는 공백문자가 아닌 것을 검색
pattern = r'[ㄱ-ㅣ가-힣]+' # 한글 정규식
m = re.findall(pattern, sentence)
print(m)
['뭐', '그대로야', '난', '다', '잃어버린', '것', '같아']

 

문자열에서 한글로 작성된 문자를 띄어쓰기 단위로 분할하여 리스트 타입으로 반환한다.