본문 바로가기

데이터 사이언스/데이터 시각화

[Tableau] 시각화 스터디 with DALC : 4주차

이번 주 스터디도 전과 마찬가지로 Tableau 기초 강의를 토대로 진행됐다.

데이터는 [뉴욕시의 에어비엔비] 데이터를 사용했다.

 

1. 데이터 확인하기

일단 데이터는 아래 사진과 같이 구성되어 있었다. 각 필드에 대한 간단한 설명을 덧붙이겠다.

 

- neighbourhood_group / neighbourhood : 뉴욕시 안의 자치구 / 자치구 안의 또 작은 지역 분류

- latitude : 위도

- longtitude : 경도

- room_type : 룸 타입으로 , Entire home/apt, Private Room, Shared Room 이렇게 세 타입으로 나뉨

- minimum_nights : 예약시 최소 숙박일

- number_of_reviews : 리뷰 갯수

- last_review : 최신 리뷰 작성 날짜

- reviews_per_month : 월당 리뷰 평균 개수

- caculated_host_listings_count : 호스트 당 관리하고 있는 숙소

- availability_365 : 365일 중 예약가능한 일수

 

데이터 필드의 개수도 많고, 다 영어로 되어있어서 분석하려면 오래 걸리겠다 생각했는데, 데이터를 찾아온 팀원분이 다 정리를 해놓으셔서 수월하게 파악할 수 있었다.

 

 

데이터 원본 상위 5개


2. 데이터 시각화 하기

데이터를 보면서 10분정도 분석과 의견을 나눴고, 7개의 큰 주제로 시각화 할 수 있겠다고 결론지었다.

 

1. 자치구별 가격이 어떻게 형성되어있는지 > 관광지일수록 비싼가?

2. 룸 타입별로 가장 선호되는 룸타입

3. 위도 경도를 이용한 에어비앤비 위치 표시

4. 각 자치구 / 작은 지역분류별 숙소의 밀도 정도 표시

5. 리뷰 작성일을 바탕으로 한 예약 빈도 계산

6. 가격 - 예약 가능일수 - 리뷰 개수 등을 바탕으로 한 숙소의 인기도 파악

7. 지역별로 어떤 타입의 룸이 가장 많이 나와있는지

 

위에 나온 의견들을 토대로 시각화를 해보았다.


2.1. 지역에 따른 가격 - 매개변수 이용해 제목 설정 및 맵 차트 활용

데이터 안의 위도, 경도 데이터를 활용하여 수월하게 맵 차트를 그릴 수 있었다. 

맵차트를 그린 후에, 자치구별로 가격의 차이를 보고 싶었다. 가격 데이터는 합계가 아닌 평균으로 설정해야하는 것을 잊지 않고 변경해주었다.

그리고 이번주 Tableau 굿모닝 기초 강의에서 배운 매개변수로 제목을 설정해보았다. 하단 그림의 '전체'에 해당하는 곳이 매개변수로 지정한 부분이다.

 

한 가지 아쉬운 점은, 내가 활용한 자치구별 필드는 neighbourhood였는데, 팀원분이 지적해준 것 처럼  neighbourhood_group을 사용했다면, 좀 더 데이터시각화가 깔끔했을 것 같다. 

약간의 변명을 해보자면, neighbourhood_라고 언더바(_)가 붙은 것은 아무래도 그 하위 데이터라는 인식이 있어서 팀원들과 데이터 분석을 했음에도 'neighbourhood_group은 상위가 아닌 하위 데이터겠거니'라고 간과한 것 같다.

좀만 더 꼼꼼히 데이터를 봐야겠다.


2.2. 지역에 따른 리뷰 수 - 대시보드

이번에는 대시보드를 이용해서, 방금 2.1.에서 만든 지역에 따른 가격에 리뷰 수를 덧붙여서, 가격과 인기도의 상관관계를 보고 싶었다.

아무래도 리뷰의 평점 데이터가 없어서, 리뷰 수가 인기도라고 설정하고 진행을 했다.

지역에 따른 리뷰 수 워크시트를 하나 더 만들고, 두 워크시트를 선택 후, [대시보드] - [동작] 선택 후, [필터] 추가로 두 워크시트를 연결해줬다.

좀 아쉬운 점은 보이는 결과물과 같이, 리뷰 수 이외에도 여러 데이터를 보여주고 싶었는데, 먼저 만든 지역에 따른 리뷰 수 그래프가 미흡해서 완성된 대시보드도 많이 데이터를 보여줄 수 없었다.

무슨 정보를 주려는지도 잘 모르겠고..좀 많이 아쉬운 결과가 나왔다.


2.3. 룸 타입에 따른 평균 가격과 선호도 - 트리맵

이번 그래프는 어떤 룸타입을 선호하고, 각 룸 타입의 평균 가격을 보고 싶어서 그려봤다.

단순한 호기심에서 그려본 그래프라서, 예상한 대로 단순한 그래프가 그려졌다.


2.4. 가격과 예약 가능한 일수

사실 이 그래프도, 2.3.과 마찬가지로 단순한 호기심에서 그려본 그래프이다.

가격이 높아도 사람들이 많이 찾을까? 라는 생각에서 시작한 그래프인데, 그리는 도중에 실습 시간이 끝나서 애매한 그래프로 그려지게 되었다.


3. 4주차 스터디를 마무리하면서..

데이터 시각화 하기 전에 팀원들과 나눴던 주제들을 다 구현해 보고 싶었는데 뜻대로 안돼서 아쉬웠다.

기초 강의 끝나고 중급 정도 들어간다면, 좀 더 수월하게 시각화를 할 수 있겠지..?

그리고 neighbourhood와 neighbourhood_group을 착각한 것도 아쉬웠다. 좀 더 꼼꼼하게 봐야할 것 같다.

 

또한, 팀원들의 발표를 보면서 느낀 점도 있다. 데이터를 보고 시각화 그래프를 보고 "이 곳은 왜 이런 결과가 나온거지?"라는 궁금증으로 관련된 정보나 기사를 찾은 팀원도 있었다. 다른 팀원은 그래프 결과를 보여주면서 스토리텔링 형식으로 발표를 했는데, 흡입력있는 스토리로 왜 저런 그래프를 그렸는지 이해시켰다.

 

이번 발표를 하면서, 그래프를 그린 나 조차 왜 이런 그래프를 그렸는지 모르겠는 것들이 있었는데, 그 짧은 순간에 데이터와 그래프를 토대로 정보도 찾고 스토리를 짠 것이 무척 대단하다고 느껴졌다. 나도 다음 주 스터디에서는 좀 더 발전된 모습을 보여줄 수 있겠지!