Okt(Open-source Korean Text processor)는 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈 소스 한국어 처리기다.
공식 홈페이지에 따르면, Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기에, 완전한 수준의 형태소 분석기를 지향하지 않는다고 한다.
Okt는 띄어쓰기ㅏ 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 쓰인다.
Okt 모듈의 함수 설명
1) morphs(phrase)
- 인자로 입력한 문장을 형태소 단위로 토크나이징
- 토크나이징된 형태소들은 리스트 형태로 반환됨
2) nouns(phrase)
- 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출
3) pos(phrase, stem=False, join=False)
- POS tagger라 부름
- 인자로 입력한 문장에서 형태소를 추출한 뒤, 품사 태깅함
- 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환됨
4) normalize(phrase)
- 입력한 문장을 정규화함
5) phrases(phrase)
- 입력한 문장에서 어구 추출
Okt 사용 예제
from konlpy.tag import Okt
# Okt 형태소 분석기 객체 생성
okt = Okt()
text='아버지가 방에 들어갑니다.'
1) 형태소 추출 - morphs
morphs = okt.morphs(text)
print(morphs)
결과
['아버지', '가', '방', '에', '들어갑니다', '.']
2) 형태소와 품사 태그 추출 - pos
pos = okt.pos(text)
print(pos)
결과
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
3) 명사만 추출 - nouns
nouns = okt.nouns(text)
print(nouns)
결과
['아버지', '방']
4) 정규화 - normalize
text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.normalize(text))
결과
오늘 날씨가 좋아요ㅋㅋ
5) 어구 추출 - phrases
text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.phrases(text))
결과
['오늘', '오늘 날씨', '좋아욬', '날씨']
[출처] 처음 배우는 딥러닝 챗봇
'데이터 사이언스 > 데이터 분석' 카테고리의 다른 글
Accuracy와 Precision (0) | 2022.05.09 |
---|---|
[토그나이징] Komoran (0) | 2021.12.14 |
[토크나이징] Kkma (0) | 2021.12.14 |
변수 선택(Feature Selection) (0) | 2021.10.05 |
[NIPA AI 교육/기본] 데이터 분석하기(3) (0) | 2021.08.20 |