본문 바로가기

데이터 사이언스

(41)
[NIPA AI 교육/응용] 02. 자료 형태의 이해 1. 머신러닝 과정 이해하기 1. 데이터 수집 - 크롤링 또는 DB 데이터를 통해 데이터 수집 2. 데이터 분석 및 전처리 - 수집한 데이터를 분석하고 머신러닝에 사용할 형태로 전처리 3. 머신러닝 학습 - 머신러닝 모델을 사용하여 데이터 학습 4. 머신러닝 평가 - 학습된 머신러닝 모델을 평가용 데이터를 사용하여 평가하기 - 일반적으로 약 7:3~8:2 비율로 학습용 데이터:평가용 데이터로 분리 # random_state : 재현가능하도록 난수의 초기값을 설정하는 것 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) 2. 데이터 전처리의 역할 - 머신러닝의 입력 형태로 데이터 변환하기 - 결측..
[NIPA AI 교육/응용] 01. 자료 형태의 이해 1. 자료 형태 구분 - 자료는 수치형 자료(Numerical Data)와 범주형 자료(Categorical data)로 나뉨 - 수치형 자료는 연속형 자료(Continuous data)와 이산형 자료(Discrete data)로 나뉨 - 수치형 자료는 양적 자료(Quantitative data)라고도 하며, 수치로 측정이 가능한 자료 - 연속형 자료는 연속적인 관측값을 갖는 자료형이고, 이산형 자료는 셀 수 있는 관측값을 가지는 것 - ex. 키, 몸무게, 시험 점수, 나이 등 - 범주형 자료는 순위형 자료(Ordinal data)와 명목형 자료(Norminal data)로 나뉨 - 범주형 자료는 질적 자료(Qualitative data)라고도 하며, 수치로 측정이 불가능한 자료 - 순위형 자료는 범주..
[NIPA AI 교육/응용] 00. 인공지능/머신러닝 개론 1. 빅데이터의 등장 - 4차 산업 흐름에 따라 수 많은 정보가 디지털 데이터로 저장되고 있음 - 빅데이터를 통하여 IoT, 클라우드, 머신러닝 기술이 상호 협력함 2. 빅데이터와 머신러닝 - 머신러닝은 빅데이터를 분석할 수 있는 강력한 툴 - 기존 통계학 및 시각화 방법의 한계를 해결 3. 머신러닝 - 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것 - 지도학습, 비지도학습, 강화학습으로 분류가 됨 3.1. 지도학습 vs 비지도학습 - 예측해야 할 결과에 대한 정답 데이터, 즉 타겟이 있는지의 여부에 따라 지도, 비지도로 나뉨 - 즉, 지도는 타켓이 있는 데이터, 비지도는 타겟이 없는 데이터를 뜻함 3.2. 강화학습 - 학습할 수 있는 데이터가 없어도 기계가 스스로 학..
[NIPA AI 교육/기본] 데이터 분석하기(3) 1. 데이터 읽기 - 필요한 패키지 설치 및 import import numpy as np imort pandas as pd import matplotlib.pyplot as plt # !pip install seaborn==0.9.0 import seaborn as asns print(sns.__version__) ## missingno 라이브러리가 설치된 경우 import try: import missingno as msno # missingno라는 라이브러리가 설치되어 있지 않을 경우 설치 후 import except: !pip install missingno import missingno as msno - pandas의 dataframe으로 데이터 읽고, 확인해보기 df = pd.read_csv(..
[NIPA AI 교육] 데이터 분석하기(2) 1. 데이터 읽기 - 필요한 패키지 및 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt - 필요한 데이터를 불러와 df 변수에 저장 후 데이터 확인 df = pd.read_csv('file path') # 상위 5개 데이터 출력 df.head() # 데이터프레임 정보 요약 출력 df.info() - 특정 칼럼 데이터를 중복없이 오름차순으로 정렬하여 확인 sorted(list(set(df['month'])) - 데이터 개수 확인 len(list(set(df['station']))) 2. 데이터 정제 - 수집된 데이터 중 원하는 달의 데이터만 추출하고, 불필요한 칼럼 제거 df = df[df['month']..
[NIPA AI 교육/기본] 데이터 분석하기(1) 1. 데이터 읽기 - 필요한 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns - pandas의 read_csv를 이용하여 dataframe 형태로 데이터 읽기 df = pd.read_csv('file path') - 상위 5개의 데이터 출력 : head() df.head() - dataframe 정보를 요약하여 출력 : info() df.info() 2. 데이터 정제 및 전처리 결측값(missing data), 이상치(outlier)를 처리하는 데이터 정제 과정을 수행함 - column 지우기 : drop() df = df.drop(columns = ['column..
Matplotlib 기초 Line Plot - 라인 그래프를 그리는 함수 - subplots()에 매개변수가 없다면, 단일 그래프가 반환됨 - 색깔도 설정 가능 (color 매개변수 사용) fig, ax = plt.subplots() x = np.arrange(15) y = x ** 2 # x의 제곱 ax.plot( x, y, linestyle=":", marker="*" ) - linestyle은 -, -. , : , -- 등으로 설정할 수 있음 축 경계 조정하기 - linespace로 조정 - set_ylim, set_xlim은 축의 경계를 설정 x = np.linespace(0, 10, 1000) fig, ax = plot.subplots() ax.plot(x, np.sin(x)) ax.set_xlim(-2, 12) # l..
[NIPA AI 교육/기본] Pandas 분석용 함수 - 집계함수 Count - 데이터 개수 확인하는 함수이며, default는 NaN 값을 제외함 df.count(axis=0) # 열 기준 df.count(axis=1) # 행 기준 Max, Min - 최대, 최소값을 반환하는 함수이며, default는 NaN 값을 제외함 - 이 때 반환되는 값은 float 값 df.max() # 최대값 df.min() # 최소값 Sum, Mean - 합계 및 평균을 계산하며, default는 열 기준으로, NaN 값은 제외됨 - 이 때 반환되는 값은 float 값 df.sum() # 합계 df.mean() # 평균 - axis 인자를 활용하면 행 기준으로 합계 및 평균 계산이 가능해짐 - skipna 인자를 활용하면 NaN 값을 포함하여 계산할 수 있음 -> 대신에, 60 + NaN..