본문 바로가기

데이터 사이언스

(41)
[NIPA AI 교육/기본] Pandas 기초 Pandas란? Python 라이브러리로, 구조화된 데이터를 효과적으로 처리하고 저장하게 도와줌. Numpy를 기반으로 설계되어 Array 계산에 특화됨 Series 데이터 생성하기 - 하나의 컬럼 값으로만 이루어짐 - Data와 Index가 있으며, 값(values)를 ndarray 형태로 가지고 있음 - 인덱스 지정이 가능하며, 인덱스로 접근 가능 data = pd.Series([1, 2, 3, 4]) gdp_dict = { 'korea':5180 'japan':12718 'china':141500 'usa':32676 } gdp = pd.Series(gdp_dict) country = pd.Series([5180, 12718, 141500, 32676], index=['korea', 'japan',..
[NIPA AI 교육/기본] Numpy 기초 앞서 작성했던 2021 AI 교육을 들으면서 들은 내용을 짧게나마 정리하려고 한다. Numpy란? 대규모 다차원 배열을 다룰 수 있게 도와주는 python 라이브러리로, 파이썬 리스트에 비해 빠른 연산을 지원하고 메모리를 효율적으로 사용할 수 있게 도와줌.(반복문 없이 배열 처리 가능) Numpy 사용하기 import numpy as np * numpy 라이브러리는 np라는 별칭으로 많이 사용됨 Numpy 배열 생성하기 import numpy as np np_arr = np.array(ragne(5)) print(np_arr) # [0 1 2 3 4] -> 공백 구분 print(type(np_arr)) # np_arr2 = np.array([0, 1, 2, 3, 4], dtype=float) print(..
[Tableau] 태블로 플랜잇 굿애프터눈 36~41 태블로 플랜잇 굿애프터눈 28~35에 이어 쓰는 글이다. [더보기] 란에서 볼 수 있듯이, 관련된 자료는 tableau public에서 다운받을 수 있다. 36. 숫자 0을 가운데 기준으로 색상 편집하기! - 절대값 사용 - 별도의 범례 사용 선택 - 색상 범례는 2단계로 사용하면 좀 더 명확하게 차이를 확인할 수 있음. 37. 마크 누적 설정(feat. 색상표 할당 + 이중 축) - [테이블 계산 편집]에서 다음과 같이 설정 - 막대 축과 라인 축을 어느정도 맞춰주기 위해, 상단 메뉴의 [분석] 탭 - 마크 누적 - 설정 으로 변경 38. Google Ads 데이터 활용한 도넛 차트 만들기(feat. 매개 변수) - Google Ads 데이터를 Google Sheets로 다운로드 후, Google Sh..
[Tableau] 시각화 스터디 with DALC : 11주차 지난 주에는 개인적인 사정이 있어 스터디를 진행하지 못했다. 이번 주에 진행한 스터디를 정리해보겠다. 데이터는 [오스카 데이터]를 이용했다. 1. 데이터 확인하기 데이터는 다음과 같이 구성되어 있다. 이번 주 데이터 준비를 해준 팀원분이 잘 정리를 해준 덕분에 수월하게 데이터를 이해할 수 있었다. 간단히 각 컬럼에 대해 설명을 하겠다 - year_film : 영화가 탄생한 해 - year_ceremony : 영화가 오스카 시상식에서 지명된 해 - ceremony : 오스카 시상식 횟수 번호 - category : 지명된 오스카 부문(카테고리) - gender : 후보자 또는 우승자의 성별 - name : 후보자 또는 우승자의 이름 - race : 후보자 또는 수상자의 인종(민족) 프로필 - film : ..
[Tableau] 태블로 플랜잇 굿애프터눈 19~27 태블로 플랜잇 굿애프터눈 10~18에 이어 쓰는 글이다. [더보기] 란에서 볼 수 있듯이, 관련된 자료는 tableau public에서 다운받을 수 있다. 19. 총계를 활용한 크로스탭 만들기 - [최고기온]을 레이블 및 색상으로 - [색상]은 [사용자 지정 다중]-최솟값 : 흰색, 최댓값 : 빨간색, 가운데 값 : 30 으로 설정, 단계별 색상은 4단계로 - 상단의 [연도] 레이블은 [서식]에서 2자리로 변경 - [분석] 탭에서 [총계]를 [열 총합계]에 추가 -> 1~31일까지 최고 기온에 대한 평균값이 나옴 - 상단 [분석] 메뉴에서 [총계] - [열 총계를 맨 위로] 선택 - [색상 범례]에서 [총계]도 추가해주기 20. 원하는 결과값을 정확하게 표현하기!_Late filtering 활용 - [합..
[Tableau] 태블로 플랜잇 굿애프터눈 10~18 태블로 플랜잇 굿애프터눈 1~9에 이어 쓰는 글이다. [더보기] 란에서 볼 수 있듯이, 관련된 자료는 tableau public에서 다운받을 수 있다. 10. 휘리릭 퀵테이블 계산 2탄_전월/전년 대비 성장률 구하기 - [퀵테이블 계산] - [전년 대비 성장률] 선택 - [머리글] 정리하기 - [측정값]을 색상으로 두기 - [측정값] 색깔 분리시키기 - [별도의 범례] 11. 매개 변수 활용! (feat. 맵 차트 + 구분 계산식) - [시도] 등 지역과 관련된 필드를 [지리적 역할] 부여하기 - [시도]에 필터 추가 하기 : 서울 특별시 - 상단 메뉴에서 [맵] - [맵 계층] - 스타일 밝게 하기 - 계산된 필드 만들기 : 수익률 수익률 SUM(수익)/SUM(매출) - 수익률은 [기본 형식] - [숫..
[Tableau] 시각화 스터디 with DALC : 9주차 중간고사 이후 첫 스터디를 진행했다. 데이터는 [직원 만족도 데이터]를 이용했다. 1. 데이터 확인하기 데이터는 다음과 같이 구성되어 있다. 아무래도 영어로 구성된 데이터다 보니, 설명이 필요할 것 같아 덧붙인다. - emp_id : 직원 id로, unique id - age : 나이 - Dept : 직원의 부서 - location : 직원의 지역으로, city(도시)와 suburb(교외)로 나뉨 - education : 직원의 교육 상태로 PG와 UG로 나뉨 * PG - shortform for post graudation, involves matser's degree(석사 학위) * UG - shortform for under graduation, involves bachelor's degree(학사..
[Tableau] 태블로 플랜잇 굿애프터눈 1~9 태블로 플랜잇 굿모닝 35~44에 이어 쓰는 글이다. [더보기] 란에서 볼 수 있듯이, 관련된 자료는 tableau public에서 다운받을 수 있다. 1. 매출이 가장 많은 달과 적은 달 - [열] 선반에는 월(주문일자), [행] 선반에는 제품 중분류를 올려놓기 - [열] 선반에 AVG(1) 추가 - 계산된 필드 형태 만들기 > 이를 색상 레이블 추가 최대 or 최대 if SUM(매출)=WINDOW_MAX(SUM(매출)) then "최대" elseif SUM(매출)=WINDOW_MIN(SUM(매출)) then "최소" else "null" END 2. 다중 측정값 활용_2017년 매출 vs 2018년 매출 - 계산된 필드 만들기 2017 매출 if YEAR([주문 일자])=2017 then 매출 end..