본문 바로가기

데이터 사이언스/데이터 시각화

[Tableau] 시각화 스터디 with DALC : 2주차

2주차 스터디에서는 앞서 Tableau 기초 강의를 들은 것을 기반으로 진행했다.

데이터는 [서울시 코로나19 확진자 현황]을 사용했다.

 

 

1. 데이터 확인하기

일단 데이터의 필드는 연번, 확진일, 지역, 여행력, 접촉력, 조치사항, 등록일, 수정일, 노출여부로 구성되어 있었다.

유효한 데이터는 확진일, 지역, 여행력이라고 생각을 했다.

 

+) 다른 친구들이 한 것을 보니 접촉력으로도 많은 결과를 보여줄 수 있었다.

   유효 데이터인데 왜 그냥 지나쳤는지...좀 더 데이터를 잘 확인해야겠다는 생각이 들었다.

 

 

데이터 원본 상위 5개만 가져옴

 


2. 데이터 시각화하기

2.1. 시계열 데이터로 보여주기

일단 확진일을 메인으로 날짜에 대한 확진자의 수 변화를 보고 싶었다.

서울시 코로나19 확진자 현황 카운트를 확진일에 따라 보고 싶었기 때문에 확진자 카운트와 확진일을 같이 사용했다.

분기별로도 확인 가능했지만, 분기별보다는 일별에 주목하고 싶어서 분기별은 제외시켰다.

또한, [마크] - [레이블]에서 [최대/최소]로 각 월의 최대/최소 확진자 수를 적었고, 데이터 겹침은 허용하지 않았다.

후에 [분석] 패널에서 [평균 라인]을 추가하여 평균 확진자 수를 확인했다.

 

 


2.2. 트리맵으로 데이터 보여주기

또 아까 유효한 데이터로 분류했던 '지역'데이터를 기반으로 지역에 대한 확진자의 비율을 트리맵으로 보고 싶었다.

카운트와 지역을 선택한 후, 트리맵으로 표현했다.

카운트 레이블을 한개 더 추가하여, 옵션 메뉴에서 [퀵 테이블 계산] - [구성 비율]을 선택해서 확진자 수와 비율도 같이 나타냈다.

그리고 색상이 잘 안보이는 것 같아 오른쪽 탭에서 색상 편집으로 1800정도로 되어있던 [끝] 옵션을 2000으로 변경했다.

눈에 띄는 많은 차이는 없지만, 제일 비율이 큰 데이터의 색상이 좀 더 돋보이는 것으로 만족했다.

 

 


2.3. 맵차트로 데이터 보여주기

트리맵으로 데이터를 확인하니 이를 지도로 또 확인해보고 싶어졌다.

일단 지역 데이터를 카운티 데이터라고 역할 부여를 해줬고, 지역은 크기로, 카운트는 색상으로 보여주도록 [마크] 패널에 드래그앤드랍했다.

맵 데이터로 변환 후, "알 수 없는 지리적 위치를 포함하는 값이 5개 있다"라는 오류가 떠서 일단 해당 5개의 데이터는 제외시켰다.

이번에는 좀 눈에 띄는 색상으로 확인하고 싶어서, [색상 필터]를 [주황색-파랑색 다중]으로 변경해줬다.

마우스오버하면 그래프가 나타나는 등 데이터를 더 보여주고 싶었는데, 방법이 생각이 안나서 추후 더 추가할 생각이다.

 

 


2.4. 파이 차트로 데이터 보여주기

마지막으로 내가 유효한 데이터라고 생각했던 '여행력'을 기반으로 데이터를 보여줬다.

null값이 너무 많아서 일단 제외 시켰고, 여행력의 수를 기반으로 파이 차트를 만들었다.

맵차트와 마찬가지로 여행력 위에 마우스오버를 하면 막대 차트 데이터가 나오게끔 하고 싶었는데, 시간(스터디 시간)도 부족하고 하는 방법도 몰라서 넘어갔다.

 

 


3. 2주차 스터디를 마무리 하면서..

처음에 말했듯이 '접촉력'이 유효 데이터라는 것을 인지 못해서 더 많은 결과를 보여줄 수 있음에도 기회를 놓친 것, 그게 제일 아쉽다.

그리고 맵차트와 파이차트에서 내가 구현하고 싶었던, 데이터끼리 연결하는 부분은 [도구 설명]에서 가능한 것이었다.

다른 친구들은 접촉력 데이터를 사용하거나 도구 설명 기능을 사용해서 더 다양한 데이터를 한눈에 보여줬다.

 

일단 다음에는 데이터를 좀 더 꼼꼼하게 봐야할 것 같다. 활용할 수 있는 데이터를 최대한 끄집어내는 것이 우선시 되어야할 것 같고,

다음주 데이터 시각화 스터디까지 남은 태블로 강의와 기초 스터디 강의를 통해서 좀 더 유용하게 tableau를 활용하는 방법을 익혀야겠다.

 

또, 같은 데이터로도 사람에 따라 다양한 결과가 나오는게 진짜 데이터 시각화의 묘미인 것 같다. 같이 스터디를 하면서 내가 발견하지 못한, 생각하지 못한 결과값을 보면 신기하기도 하고 자극도 된다. 다음에는 나도 저렇게 멋있는 결과들을 표현해봐야겠다.

여담이지만 스터디를 하면서 d3.js를 이용해서 시각화 했던 프로젝트가 괜시리 생각이 났다. 그 때도 결과값 내는 거랑 설명 적는 부분, 그리고 대표님, 상무님, 책임님들이랑 한정된 데이터로 어떤 것을 보여줄지 회의하는게 참 재밌고 흥미로웠는데...

 

마지막으로 이렇게 간편한 tableau라는 툴도 참 대단하다고 느꼈다. 아직 대용량 데이터를 사용하기 전이라 그런 경우에는 로딩 시간이 얼마나 걸릴지는 모르겠지만 오늘의 약 3만건의 데이터로 그래프를 구현하는 데에는 충분히 만족할 만한 속도였다. 전에 책임님이 말씀하셨던 것 처럼 100만건 이상의 대용량 데이터가 들어온다면 어떤 스피드를 보여줄지 궁금하다.