본문 바로가기

데이터 사이언스/머신러닝

(11)
[NIPA AI 교육/응용] 02. 자료 형태의 이해 1. 머신러닝 과정 이해하기 1. 데이터 수집 - 크롤링 또는 DB 데이터를 통해 데이터 수집 2. 데이터 분석 및 전처리 - 수집한 데이터를 분석하고 머신러닝에 사용할 형태로 전처리 3. 머신러닝 학습 - 머신러닝 모델을 사용하여 데이터 학습 4. 머신러닝 평가 - 학습된 머신러닝 모델을 평가용 데이터를 사용하여 평가하기 - 일반적으로 약 7:3~8:2 비율로 학습용 데이터:평가용 데이터로 분리 # random_state : 재현가능하도록 난수의 초기값을 설정하는 것 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) 2. 데이터 전처리의 역할 - 머신러닝의 입력 형태로 데이터 변환하기 - 결측..
[NIPA AI 교육/응용] 01. 자료 형태의 이해 1. 자료 형태 구분 - 자료는 수치형 자료(Numerical Data)와 범주형 자료(Categorical data)로 나뉨 - 수치형 자료는 연속형 자료(Continuous data)와 이산형 자료(Discrete data)로 나뉨 - 수치형 자료는 양적 자료(Quantitative data)라고도 하며, 수치로 측정이 가능한 자료 - 연속형 자료는 연속적인 관측값을 갖는 자료형이고, 이산형 자료는 셀 수 있는 관측값을 가지는 것 - ex. 키, 몸무게, 시험 점수, 나이 등 - 범주형 자료는 순위형 자료(Ordinal data)와 명목형 자료(Norminal data)로 나뉨 - 범주형 자료는 질적 자료(Qualitative data)라고도 하며, 수치로 측정이 불가능한 자료 - 순위형 자료는 범주..
[NIPA AI 교육/응용] 00. 인공지능/머신러닝 개론 1. 빅데이터의 등장 - 4차 산업 흐름에 따라 수 많은 정보가 디지털 데이터로 저장되고 있음 - 빅데이터를 통하여 IoT, 클라우드, 머신러닝 기술이 상호 협력함 2. 빅데이터와 머신러닝 - 머신러닝은 빅데이터를 분석할 수 있는 강력한 툴 - 기존 통계학 및 시각화 방법의 한계를 해결 3. 머신러닝 - 명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것 - 지도학습, 비지도학습, 강화학습으로 분류가 됨 3.1. 지도학습 vs 비지도학습 - 예측해야 할 결과에 대한 정답 데이터, 즉 타겟이 있는지의 여부에 따라 지도, 비지도로 나뉨 - 즉, 지도는 타켓이 있는 데이터, 비지도는 타겟이 없는 데이터를 뜻함 3.2. 강화학습 - 학습할 수 있는 데이터가 없어도 기계가 스스로 학..