본문 바로가기

데이터 사이언스/데이터 분석

(12)
Matplotlib 기초 Line Plot - 라인 그래프를 그리는 함수 - subplots()에 매개변수가 없다면, 단일 그래프가 반환됨 - 색깔도 설정 가능 (color 매개변수 사용) fig, ax = plt.subplots() x = np.arrange(15) y = x ** 2 # x의 제곱 ax.plot( x, y, linestyle=":", marker="*" ) - linestyle은 -, -. , : , -- 등으로 설정할 수 있음 축 경계 조정하기 - linespace로 조정 - set_ylim, set_xlim은 축의 경계를 설정 x = np.linespace(0, 10, 1000) fig, ax = plot.subplots() ax.plot(x, np.sin(x)) ax.set_xlim(-2, 12) # l..
[NIPA AI 교육/기본] Pandas 분석용 함수 - 집계함수 Count - 데이터 개수 확인하는 함수이며, default는 NaN 값을 제외함 df.count(axis=0) # 열 기준 df.count(axis=1) # 행 기준 Max, Min - 최대, 최소값을 반환하는 함수이며, default는 NaN 값을 제외함 - 이 때 반환되는 값은 float 값 df.max() # 최대값 df.min() # 최소값 Sum, Mean - 합계 및 평균을 계산하며, default는 열 기준으로, NaN 값은 제외됨 - 이 때 반환되는 값은 float 값 df.sum() # 합계 df.mean() # 평균 - axis 인자를 활용하면 행 기준으로 합계 및 평균 계산이 가능해짐 - skipna 인자를 활용하면 NaN 값을 포함하여 계산할 수 있음 -> 대신에, 60 + NaN..
[NIPA AI 교육/기본] Pandas 기초 Pandas란? Python 라이브러리로, 구조화된 데이터를 효과적으로 처리하고 저장하게 도와줌. Numpy를 기반으로 설계되어 Array 계산에 특화됨 Series 데이터 생성하기 - 하나의 컬럼 값으로만 이루어짐 - Data와 Index가 있으며, 값(values)를 ndarray 형태로 가지고 있음 - 인덱스 지정이 가능하며, 인덱스로 접근 가능 data = pd.Series([1, 2, 3, 4]) gdp_dict = { 'korea':5180 'japan':12718 'china':141500 'usa':32676 } gdp = pd.Series(gdp_dict) country = pd.Series([5180, 12718, 141500, 32676], index=['korea', 'japan',..
[NIPA AI 교육/기본] Numpy 기초 앞서 작성했던 2021 AI 교육을 들으면서 들은 내용을 짧게나마 정리하려고 한다. Numpy란? 대규모 다차원 배열을 다룰 수 있게 도와주는 python 라이브러리로, 파이썬 리스트에 비해 빠른 연산을 지원하고 메모리를 효율적으로 사용할 수 있게 도와줌.(반복문 없이 배열 처리 가능) Numpy 사용하기 import numpy as np * numpy 라이브러리는 np라는 별칭으로 많이 사용됨 Numpy 배열 생성하기 import numpy as np np_arr = np.array(ragne(5)) print(np_arr) # [0 1 2 3 4] -> 공백 구분 print(type(np_arr)) # np_arr2 = np.array([0, 1, 2, 3, 4], dtype=float) print(..