[토크나이징] Okt

Okt(Open-source Korean Text processor)는 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈 소스 한국어 처리기다.

공식 홈페이지에 따르면, Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기에, 완전한 수준의 형태소 분석기를 지향하지 않는다고 한다.

Okt는 띄어쓰기ㅏ 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 쓰인다.

Okt 모듈의 함수 설명

1) morphs(phrase)

2) nouns(phrase)

3) pos(phrase, stem=False, join=False)

4) normalize(phrase)

5) phrases(phrase)

from konlpy.tag import Okt

# Okt 형태소 분석기 객체 생성
okt = Okt()

text='아버지가 방에 들어갑니다.'

1) 형태소 추출 - morphs

morphs = okt.morphs(text)
print(morphs)

결과

['아버지', '가', '방', '에', '들어갑니다', '.']

2) 형태소와 품사 태그 추출 - pos

pos = okt.pos(text)
print(pos)

결과

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]

3) 명사만 추출 - nouns

nouns = okt.nouns(text)
print(nouns)

결과

['아버지', '방']

4) 정규화 - normalize

text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.normalize(text))

결과

오늘 날씨가 좋아요ㅋㅋ

5) 어구 추출 - phrases

text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.phrases(text))

결과

['오늘', '오늘 날씨', '좋아욬', '날씨']

[출처] 처음 배우는 딥러닝 챗봇