본문 바로가기

데이터 사이언스/데이터 분석

[토그나이징] Komoran

Komoran(Korean Morphological ANalyzer; 코모란)은 Shineware에서 자바로 개발한 한국어 형태소 분석기다.

다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용한다고 한다.

 

KoNLPy의 코모란 형태소 분석기를 사용하기 위해서는 다음과 같이 konlpy.tag 패키지의 Komoran 모듈을 불러와야 한다.

from konlpy.tag import Komoran

앞서 배운 Kkma 모듈의 함수와 인터페이스가 동일하다고 한다.


Komoran 모듈의 함수 설명

1) morphs(phrase)

  • 인자로 입력한 문장을 형태소 단위로 토크나이징함
  • 토크나이징된 형태소들은 리스트 형태로 반환됨

2) nouns(phrase)

  • 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출함

3) pos(phrase, flatten=True)

  • POS tagger라 부름
  • 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅함
  • 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환됨

Komoran 형태소 분석기 사용 예제

# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = '아버지가 방에 들어갑니다.'

 

1) 형태소 추출 - morphs

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

결과

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']

2) 형태소와 품사 태그 추출 -  pos

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

결과

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]

3) 명사만 추출

# 명사만 추출
nouns = komoran.nouns(text)
print(text)

결과

['아버지', '방']

 

+) Komoran은 Kkma보다 형태소를 빠르게 분석하며 다양한 품사 태그를 지원한다고 한다.

 

'데이터 사이언스 > 데이터 분석' 카테고리의 다른 글

Accuracy와 Precision  (0) 2022.05.09
[토크나이징] Okt  (0) 2021.12.21
[토크나이징] Kkma  (0) 2021.12.14
변수 선택(Feature Selection)  (0) 2021.10.05
[NIPA AI 교육/기본] 데이터 분석하기(3)  (0) 2021.08.20