본문 바로가기

데이터 사이언스/머신러닝

[NIPA AI 교육/응용] 02. 자료 형태의 이해

1. 머신러닝 과정 이해하기

1. 데이터 수집

    - 크롤링 또는 DB 데이터를 통해 데이터 수집

2. 데이터 분석 및 전처리

    - 수집한 데이터를 분석하고 머신러닝에 사용할 형태로 전처리

3. 머신러닝 학습

    - 머신러닝 모델을 사용하여 데이터 학습

4. 머신러닝 평가

    - 학습된 머신러닝 모델을 평가용 데이터를 사용하여 평가하기

    - 일반적으로 약 7:3~8:2 비율로 학습용 데이터:평가용 데이터로 분리

# random_state : 재현가능하도록 난수의 초기값을 설정하는 것

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

2. 데이터 전처리의 역할

- 머신러닝의 입력 형태로 데이터 변환하기

- 결측값 및 이상치를 처리하여 데이터 정제하기

- 학습용 및 평가용 데이터 분리

 


3. 범주형 자료 전처리하기

명목형 자료

- 수치 맵핑 방식

    - 일반적으로 범주를 0, 1로 맵핑

    - 3개 이상인 경우, 수치의 크기 간격을 같게 하여 수치 맵핑

 

- 더미(Dummy) 기법

pd.get_dummies()
dummies = pd.get_dummies(df[['sex']])

    - 각 범주를 0 or 1로 변환

 

 

순서형 자료

- 수치 맵핑 방식

df = df.replace({'female':0, 'male': 1})

    - 수치에 맵핑하여 변환하지만, 수치 간 크기 차이는 커스텀 가능

    - 크기 차이가 머신러닝 결과에 결과를 끼칠 수 있음

 


4. 수치형 자료 전처리하기

수치형 자료란, 크기를 갖는 수치형 값으로 이루어진 데이터임

1) 스케일링(Scaling)

변수값의 범위 및 크기를 변환하는 방식으로, 변수(feature) 간의 범위가 차이가 나면 사용하기 좋음

 

- 정규화(Normalization)

    - 변수 X를 정규화한 값 X`

(data - data.min) / (data.max() - data.min())

    - 정규화 공식 $$ \frac{X-X_{min}}{X_{max} - X_{min}} $$

 

 

 

- 표준화(Standardization)

    - 변수 X를 표준화한 값 X`

(data - data.mean()) / data.std()

    - 표준화 공식 $$ \frac{X-\mu}{\sigma} $$

    

2) 범주화

 변수의 값보다 범주가 중요한 경우 사용

 


5. 결측값(Missing data) 처리하기

- 일반적인 머신러닝 모델의 입력 값으로 결측값을 사용할 수 없음

- 따라서 Null, None, NaN 등의 결측값을 처리 해야함

 

1) 결측값이 존재하는 샘플 삭제

df.drop(columns=[변수명])
df.dropna()

 

2) 결측값이 많이 존재하는 변수 삭제

 

3) 결측값을 다른 값으로 대체

 


6. 이상치(Outlier) 처리하기

- 이상치가 있으면, 모델의 성능을 저하할 수 있음

- 이상치는 일반적으로 전처리 과정에서 제거하며, 어떤 값이 이상치인지 판단하는 기준이 중요함

 

이상치 판단 기준 방법

1) 통계 지표(카이제곱 검정, IQR 지표 등)를 사용하여 판단

2) 데이터 분포를 보고 직접 판단

3) 머신러닝 기법을 사용하여 이상치 분류

 

df[df['Age'] - np.floor(df['Age']) > 0]['Age']    # 이상치 검색

df[df['Age'] - np.floor(df['Age']) == 0]   # 이상치 처리

7. 지도학습 데이터 분리

- 지도학습의 경우 feature 데이터와 label 데이터를 분리해 저장함

- Feature 데이터 : label을 예측하기 위한 입력값

- Label 데이터 : 예측해야 할 대상이 되는 데이터

 

 

+) 현재까지의 감상~.~

생각보다 진짜 강의도 괜찮고 배우는 것도 많다.

무료고 이수증까지 받을 수 있다고 하니 많은 사람들이 같이 들었음 한다.