[토크나이징] Kkma

Kkma는 자연어 처리를 위해 개발한 한국어 형태소 분석기다. 흔히 '꼬꼬마'라고 한다.

KoNLPy의 꼬꼬마 형태소 분석기를 사용하기 위해서는 konlpy.tag 패키지의 Kkma 모듈을 불러와야 한다.

from konlpy.tag import Kkma

Kkma를 이용하면 간단한 한국어 문장을 형태소 단위로 토크나이징 할 수 있다고 한다.

Kkma 모듈의 함수 설명

1) morphs(phrase)

2) nouns(phrase)

3) pos(phrase, flatten=True)

4) sentences(phrase)

# 꼬꼬마 형태소 분석기 사용

from konlpy.tag import Kkma

# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

text = '아버지가 방에 들어갑니다.'

1) 형태소 추출 - morphs(phrase)

# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

결과

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']

2) 형태소와 품사 태그 추출 - pos

# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

결과

('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]

3) 명사만 추출 - nouns

# 명사만 추출
nouns = kkma.nouns(text)
print(text)

결과

아버지가 방에 들어갑니다.

4) 문장 분리 - sentences

# 문장 분리
sentences = '오늘 날씨는 어때요? 내일은 업다던데.'
s = kkma.sentences(sentences)
print(s)

결과

['오늘 날씨는 어 때요?', '내일은 업다 던데.']

이 외에도 총 56개의 품사 태그를 지원한다고 한다.

+) Kkma는 분석 시간이 다른 형태소 분석기에 비해 느리다고 한다. 하지만, 속도가 느리더라도 정확한 품사 정보가 필요할 때는 Kkma를 많이 사용한다고 한다.

[출처] 처음 배우는 딥러닝 챗봇