본문 바로가기

데이터 사이언스/데이터 분석

(12)
Accuracy와 Precision 💡 Accuracy 모델과 실제 값 사이의 차이가 적다는 정확도를 의미 분석의 활용적인 측면에서 중요 💡 Precision 모델을 지속적으로 반복했을 때의 편차의 수준으로써, 일관적으로 동일한 결과를 제시하는 것을 의미 안정성 측면에서 중요 📌 Accuracy와 Precision은 트레이드오프가 되는 경우가 많으므로 모델 해석 및 적용 시 고려할 것!
[토크나이징] Okt Okt(Open-source Korean Text processor)는 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈 소스 한국어 처리기다. 공식 홈페이지에 따르면, Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기에, 완전한 수준의 형태소 분석기를 지향하지 않는다고 한다. Okt는 띄어쓰기ㅏ 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 쓰인다. Okt 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출 3) pos(phrase, stem=False, join=False) POS..
[토그나이징] Komoran Komoran(Korean Morphological ANalyzer; 코모란)은 Shineware에서 자바로 개발한 한국어 형태소 분석기다. 다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용한다고 한다. KoNLPy의 코모란 형태소 분석기를 사용하기 위해서는 다음과 같이 konlpy.tag 패키지의 Komoran 모듈을 불러와야 한다. from konlpy.tag import Komoran 앞서 배운 Kkma 모듈의 함수와 인터페이스가 동일하다고 한다. Komoran 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징함 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명..
[토크나이징] Kkma Kkma는 자연어 처리를 위해 개발한 한국어 형태소 분석기다. 흔히 '꼬꼬마'라고 한다. KoNLPy의 꼬꼬마 형태소 분석기를 사용하기 위해서는 konlpy.tag 패키지의 Kkma 모듈을 불러와야 한다. from konlpy.tag import Kkma Kkma를 이용하면 간단한 한국어 문장을 형태소 단위로 토크나이징 할 수 있다고 한다. Kkma 모듈의 함수 설명 1) morphs(phrase) 인자로 입력한 문장을 형태소 단위로 토크나이징함 토크나이징된 형태소들은 리스트 형태로 반환됨 2) nouns(phrase) 인자로 입력한 문장에서 품사가 명사인 토큰만 추출 3) pos(phrase, flatten=True) POS tagger라 부름 인자로 입력한 문장에서 형태소를 추출한 뒤, 품사 태깅을 ..
변수 선택(Feature Selection) 인과관계를 기준으로 종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 선택하는 과정 상관관계 두 가지 사건에 연관성이 존재하는 상태 X가 증감할 때 Y가 증감하는 정도를 나타내는 관계 인과관계 특정한 사건이 다른 사건에 직접 영향을 미치는 상태 X가 먼저 발생하였을 때, Y가 어떻게 변하는지에 따라 Y에 영향을 주는 X를 설명하는 관계 독립변수(Independent Variable) 다른 변수에 영향을 받지 않고 종속변수에 영향을 주는 변수 측정되거나 의도적인 변화가 가능한 입력 변수 X의 값으로 사용되는 변수 종속변수(Dependent Variable) 독립변수의 영향을 받아 변화하는 종속적인 변수 인과관계 등으로 도출된 결과값 또는 예측값 Y의 값으로 사용하는 변수
[NIPA AI 교육/기본] 데이터 분석하기(3) 1. 데이터 읽기 - 필요한 패키지 설치 및 import import numpy as np imort pandas as pd import matplotlib.pyplot as plt # !pip install seaborn==0.9.0 import seaborn as asns print(sns.__version__) ## missingno 라이브러리가 설치된 경우 import try: import missingno as msno # missingno라는 라이브러리가 설치되어 있지 않을 경우 설치 후 import except: !pip install missingno import missingno as msno - pandas의 dataframe으로 데이터 읽고, 확인해보기 df = pd.read_csv(..
[NIPA AI 교육] 데이터 분석하기(2) 1. 데이터 읽기 - 필요한 패키지 및 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt - 필요한 데이터를 불러와 df 변수에 저장 후 데이터 확인 df = pd.read_csv('file path') # 상위 5개 데이터 출력 df.head() # 데이터프레임 정보 요약 출력 df.info() - 특정 칼럼 데이터를 중복없이 오름차순으로 정렬하여 확인 sorted(list(set(df['month'])) - 데이터 개수 확인 len(list(set(df['station']))) 2. 데이터 정제 - 수집된 데이터 중 원하는 달의 데이터만 추출하고, 불필요한 칼럼 제거 df = df[df['month']..
[NIPA AI 교육/기본] 데이터 분석하기(1) 1. 데이터 읽기 - 필요한 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns - pandas의 read_csv를 이용하여 dataframe 형태로 데이터 읽기 df = pd.read_csv('file path') - 상위 5개의 데이터 출력 : head() df.head() - dataframe 정보를 요약하여 출력 : info() df.info() 2. 데이터 정제 및 전처리 결측값(missing data), 이상치(outlier)를 처리하는 데이터 정제 과정을 수행함 - column 지우기 : drop() df = df.drop(columns = ['column..