[토그나이징] Komoran

Komoran(Korean Morphological ANalyzer; 코모란)은 Shineware에서 자바로 개발한 한국어 형태소 분석기다.

다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용한다고 한다.

KoNLPy의 코모란 형태소 분석기를 사용하기 위해서는 다음과 같이 konlpy.tag 패키지의 Komoran 모듈을 불러와야 한다.

from konlpy.tag import Komoran

앞서 배운 Kkma 모듈의 함수와 인터페이스가 동일하다고 한다.

Komoran 모듈의 함수 설명

1) morphs(phrase)

2) nouns(phrase)

3) pos(phrase, flatten=True)

# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = '아버지가 방에 들어갑니다.'

1) 형태소 추출 - morphs

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

결과

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']

2) 형태소와 품사 태그 추출 - pos

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

결과

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]

3) 명사만 추출

# 명사만 추출
nouns = komoran.nouns(text)
print(text)

결과

['아버지', '방']

+) Komoran은 Kkma보다 형태소를 빠르게 분석하며 다양한 품사 태그를 지원한다고 한다.