본문 바로가기

데이터 사이언스

(41)
[Mac] 그래프 한글 깨짐 현상 ggplot2 그래프를 그리려고 하니 한글 깨짐 현상이 있었다. 다음의 코드 한 줄로 간단히 해결이 되었다. # mac 한글 꺠짐 theme_set(theme_gray(base_family = 'NanumGothic'))
Accuracy와 Precision 💡 Accuracy 모델과 실제 값 사이의 차이가 적다는 정확도를 의미 분석의 활용적인 측면에서 중요 💡 Precision 모델을 지속적으로 반복했을 때의 편차의 수준으로써, 일관적으로 동일한 결과를 제시하는 것을 의미 안정성 측면에서 중요 📌 Accuracy와 Precision은 트레이드오프가 되는 경우가 많으므로 모델 해석 및 적용 시 고려할 것!
[Folium] 지도 시각화 도구 1. Folium 설치하기 pip install folium # conda install folium 2. Folium 다루기 import folium 그냥 위도와 경도 정보를 주면 지도를 그린다. map_osm = folium.Map(location=[45.5236, -122.6750]) map_osm zoom_start 옵션은 확대 비율을 정의한다. stamen = folium.Map(location=[45.5236, -122.6750], zoom_start=13) stamen tiles 옵션으로 아래와 같은 지도를 그릴 수도 있다. stamen = folium.Map(location=[45.5236, -122.6750], tiles='Stamen Toner', zoom_start=13) stamen..
[plt] PC 운영체제에 따라 폰트 변경 하기 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = 'c:/Windows/Fonts/malgun.ttf' font_name = font_manager.FontProperties(fname=path).get_name() rc('font', family=font_name) else: print('Unknown System...Sorry!')
[Embedding] 단어 임베딩 컴퓨터는 자연어를 처리할 수 없기에, 숫자나 벡터 형태로 변환해 컴퓨터가 처리할 수 있게 해주어야 한다. 이 과정을 자연어 처리 분야에서는 임베딩(Embedding)이라고 한다. 단어 임베딩은 개별 단어를 벡터로 표현하는 방법이다. 문장 임베딩에 비해 학습 방법이 간단하지만, 동음이의어에 대한 구분을 하지 않기에 의미가 다르더라도 단어의 형태가 같다면 동일한 벡터값으로 표현되는 단점이 있다. 1. 원-핫 인코딩(one-hot encoding) 단어를 숫자 벡터로 변환하는 가장 기본적인 방법이다. 요소들 중 단 하나의 값만 1, 나머지는 0인 인코딩을 의미하며, 전체 요소 중 단 하나의 값만 1이기 때문에 희소 벡터라고 한다. 또한 원-핫 인코딩의 결과를 원-핫 벡터라 한다. 원-핫 인코딩을 하기 위해서는..
[토크나이징] Okt Okt(Open-source Korean Text processor)는 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈 소스 한국어 처리기다. 공식 홈페이지에 따르면, Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기에, 완전한 수준의 형태소 분석기를 지향하지 않는다고 한다. Okt는 띄어쓰기ㅏ 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 쓰인다. Okt 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출 3) pos(phrase, stem=False, join=False) POS..
[토그나이징] Komoran Komoran(Korean Morphological ANalyzer; 코모란)은 Shineware에서 자바로 개발한 한국어 형태소 분석기다. 다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용한다고 한다. KoNLPy의 코모란 형태소 분석기를 사용하기 위해서는 다음과 같이 konlpy.tag 패키지의 Komoran 모듈을 불러와야 한다. from konlpy.tag import Komoran 앞서 배운 Kkma 모듈의 함수와 인터페이스가 동일하다고 한다. Komoran 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징함 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명..
[토크나이징] Kkma Kkma는 자연어 처리를 위해 개발한 한국어 형태소 분석기다. 흔히 '꼬꼬마'라고 한다. KoNLPy의 꼬꼬마 형태소 분석기를 사용하기 위해서는 konlpy.tag 패키지의 Kkma 모듈을 불러와야 한다. from konlpy.tag import Kkma Kkma를 이용하면 간단한 한국어 문장을 형태소 단위로 토크나이징 할 수 있다고 한다. Kkma 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징함 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명사인 토큰만 추출 3) pos(phrase, flatten=True) POS tagger라 부름 인자로 입력한 문장에서 형태소를 추출한 뒤, 품사 태깅을 ..