본문 바로가기

데이터 사이언스/데이터 시각화

[Tableau] 시각화 스터디 with DALC : 11주차


지난 주에는 개인적인 사정이 있어 스터디를 진행하지 못했다.

이번 주에 진행한 스터디를 정리해보겠다.

데이터는 [오스카 데이터]를 이용했다.

 

1. 데이터 확인하기

데이터는 다음과 같이 구성되어 있다. 이번 주 데이터 준비를 해준 팀원분이 잘 정리를 해준 덕분에 수월하게 데이터를 이해할 수 있었다. 간단히 각 컬럼에 대해 설명을 하겠다

- year_film : 영화가 탄생한 해

- year_ceremony : 영화가 오스카 시상식에서 지명된 해

- ceremony : 오스카 시상식 횟수 번호

- category : 지명된 오스카 부문(카테고리)

- gender : 후보자 또는 우승자의 성별

- name : 후보자 또는 우승자의 이름

- race : 후보자 또는 수상자의 인종(민족) 프로필

- film : 영화; 후보작의 이름

- winner : 수상자; 수상자는 True, 후보자는 False

데이터 원본 상위 5개

참고로, 데이터를 준비해 오신 팀원분은 2개의 데이터를 준비했다. 하지만, 나는 이번 스터디에서 상단의 오스카 데이터 밖에 시각화를 못해서 일단 오스카 데이터에 대해 설명을 첨부했다. 

다른 데이터는 여성 주연 영화에 관한 내용이었다. 내가 원하는 것은 예산 및 총 수익에 대한 것을 이번주에 배운 내용을 토대로 파이 차트로 구현하고 싶었는데, 아쉽게도 완성을 하지 못했다. 좋은 데이터임에도 불구하고 활용을 제대로 하지 못한 것 같아 아쉽다.


2. 데이터 시각화 하기

데이터를 보며 어떤 식으로 데이터를 시각화 할 수 있을지 의견을 나눴다. 오스카 데이터로는 한 5개 정도의 주제가 나왔다.

 

1. 후보 지명까지는 인종의 다양성이 충족되지만, 정작 상을 타는 인종들은 어떨까? 

2. 20세기와 21세기의 변화 확인 > 연도별 여남의 수상 추이 확인

3. 연예계에서 남녀가 동등하게 지명되는가

4. 각 인종별 수상 추이 확인

5. 제일 많이 지명된 배우와 그 배우의 실제 수상 횟수


2.1. 인종별 연도에 따른 수상 횟수

일단 제일 간단하게 연도별로 각 인종별 수상 횟수를 시각화했다.

이번 주에 실습한 국내 이동통신 3사 주식 비교처럼 구현하고 싶었다.

계산된 필드를 만들어, 각 인종별로 우승자 횟수를 만들었다.

각 항목을 영화가 호명된 해를 기준으로 봤고,  그 결과 106개의 데이터가 맞지 않다고 하여 제외시키고 시각화를 시켰다.

 


2.2.  인종별 총 지명 횟수 및 연도에 따른 총 수상자 횟수

2.1.의 시각화를 하다 보니, 인종별로 지명 횟수 대비 실제 수상의 실체가 궁금해졌다.

이번 주에 배운 대시보드를 활용해보고 싶었다.

 

일단, 인종별로 총 지명 횟수를 시각화했다.

 

그리고, 새 워크시트로 인종별 연도에 따른 총 수상자의 횟수를 시각화했다.

위와 다른 점은, 상단의 시각화는 수상의 여부와는 관계없이 총 지명 횟수를 시각화 한 것이라면, 이번 시각화는 수상의 여부에 중점을 뒀다는 것이다.

필드 컨트롤러가 하단 이미지에 보이지 않지만, 위의 데이터와 동일하게 black / hispanic / white / asian으로 구성이 되어 있었다.

 

이제 이 두 워크시트를 대시보드를 통해 하나로 합쳐보았다.

이번주에 배운 매개변수에 따른 대시보드의 동작을 이용하여 두 워크시트를 연결하였다.

결과는 다음과 같다.

동양인의 총 지명 횟수 및 수상 횟수
흑인의 총 지명 횟수 및 수상 횟수
히스패닉의 총 지명 횟수 및 수상 횟수
백인의 총 지명 횟수 및 수상 횟수


3. 11주차 스터디를 마무리 하면서...

스터디 차수가 늘어가면서 느끼는 게 한가지 있다. 무에서 유를 창조하는건 정말 어려운 것 같다. 단순히 시각화에서 그치는 것이 아니라, 시각화 한 내용을 팀원들에게 발표하는 것도 중요하다는 것을 느꼈다. 그 짧은 순간에 스토리를 만들어 내고, 내가 왜 이런 시각화를 만들었는지 설명하는 모든 행위가 내가 그 데이터를 얼마만큼 이해하고 있고, 태블로가 얼마나 손에 익는지를 보여주는 중요한 척도가 되는 것 같다.

태블로 중급 강의를 듣는 만큼 나 자신에게 "이 정도는 이제 하지 않을까?" 싶었는데, 막상 데이터를 시각화하자니, 아직 많이 부족하다는 것을 매번 느끼게 된다. 그래도 최대한 그 주에 배운 내용을 활용하려고 노력 중이다.

 

사실 대시보드도 동작이 제대로 돌아가지 않았다. 팀원들에게 발표할 때까지만 해도, 그래프 색상만 바뀌지 그래프 내용은 바뀌지 않아 답답했다. 나와 비슷한 내용으로 시각화한 팀원분이 많이 도와줘서 무사히 완성을 할 수 있었다. 

 

그리고 정말 아쉽지만 여성 주연 영화 관련해서도 데이터를 시각화하고 싶었는데, 대시보드에서 시간을 많이 뺏겨서 결국 시각화하지 못해 매우 아쉽다.

 

다들 너무 시각화를 잘해서 나도 같이 열심히 하게 된다. 동아리에서 많은 것을 배워가는 것 같아 참 고맙다. 곧 종강하는 것이 매우 아쉬울 정도로 데이터 시각화 팀원들에게 배운 것도 많고 자극도 많이 되었다. 다음 주 스터디도 기대가 된다.