본문 바로가기

데이터 사이언스/데이터 시각화

[Tableau] 시각화 스터디 with DALC : 9주차

중간고사 이후 첫 스터디를 진행했다.

데이터는 [직원 만족도 데이터]를 이용했다.

 

1. 데이터 확인하기

데이터는 다음과 같이 구성되어 있다.

아무래도 영어로 구성된 데이터다 보니, 설명이 필요할 것 같아 덧붙인다.

- emp_id : 직원 id로, unique id

- age : 나이

- Dept : 직원의 부서

- location : 직원의 지역으로, city(도시)와 suburb(교외)로 나뉨

- education : 직원의 교육 상태로 PG와 UG로 나뉨

      * PG - shortform for post graudation, involves matser's degree(석사 학위)

      * UG - shortform for under graduation, involves bachelor's degree(학사 학위)

- recruitment_type : 직원의 취업 형태. On-campus(캠퍼스 내 모집), Referral(추천), Walk-in(공채), Recruitment Agency(취업 기관) 총 4개의 타입으로 나뉨

- job_level : 1~5. 직원의 일 레벨. 1은 작은 포지션, 5는 가장 높은 포지션

- rating : 1~5. 전년도 직원에 대한 평가. 1은 최저, 5는 최고 점수

- onsite : 현장 근무 / 출장을 가봤는지의 여부. 0 - 없음, 1- 있음

- awards : 수상의 개수

- certification : 원본 데이터 상에서는 Is the employee certified? 라고 기재. 아마 (전문직)면허증을 가졌는지로 추측

- salary : 순 급여

- satisfied : 현재 직업에 만족하고 있는지의 여부. 0 - 만족하지 않음, 1 - 만족함

데이터 원본 상위 5개


2. 데이터 시각화 하기

데이터를 보며 어떤 식으로 데이터를 시각화 해볼지 의견을 나눴다. 결론적으로 다음 12개 정도의 시각화 주제가 나왔다.

 

1. 학위가 석사인 사람 중 5레벨로 진급을 시킬만한 사람이 누가 있는지

2. 급여와 현재 직업 만족도의 상관관계

3. 부서별로 구성비율 및 직원을 어떤 식으로 뽑았는지(학력, 연령 등)

4. 젊은 연령대의 신입을 많이 뽑은 부서는?

5. 도시와 교외를 나눠서 어디가 고학력자가 많은지

6. 도시와 교외에 따른 전년도 직원의 평가가 달라지는지?

7. 회사 임원이라고 가정하고 우수직원 뽑아보기

8. 부서별 급여 차트 -> job_level 별로 보여주기

9. 부서별로 매개변수에 따라서 달라지는 bar chart

10. 면허증과 현장근무의 상관관계 및 급여와의 관계

11. 직원의 취업 형태에 따라서 달라지는 일의 레벨 및 만족도, 급여

12. 비용적으로 효율적인 인재를 뽑기 위해선 어떻게 해야하는가

 


2.1. 부서별 평균 나이

중간 고사 전에 배웠던 내용을 활용했다. 이중축을 활용했고, 평균 축을 이용했다.


2.2. 부서별 평균 급여

2.1과 마찬가지로 중간 고사 전에 배웠던 내용을 활용했다.

아쉬운 점은 평균 축 말고도 각 부서의 최대/최소 급여를 보여주고 싶었는데, 잘 안되었다.

 


2.3. 취업 형태와 부서에 따른 평균 급여

트리맵으로 표현했고, 그래프만으로는 최대/최소 값을 한눈에 보기 힘들어서 여러 방법을 해봤는데, 원하는대로 잘 되지 않아 일단 주석을 넣어봤다.

 


3. 9주차 스터디를 마무리 하면서...

분명 5주차 스터디를 마무리할 때 까지만 해도, 슬슬 태블로가 손에 익는다고 얘기했는데, 무색하게도 다 까먹었다. 익숙하지가 않다. 분명 데이터를 보면서 하고싶은 시각화는 굉장히 많았는데, 사실상 한 것은 없어 매우 아쉽다. 이번 주에 배운 중급 기능들도 하나도 써먹지 못해 아쉬웠다.

 

다른 팀원들은 계산된 필드 만들기 기능을 굉장히 자유롭게 사용하는 것 같은데, 나는 간단한 필드도 만들지 못하는 것 같아 아쉽다. 좀 더 공부를 해야겠다. 또 아쉬웠던 점은 3번째 내가 만든 트리맵과 비슷한 목표를 가지고 시각화를 한 팀원분들이 있었다. 나는 단순하게 데이터를 원색적으로 보여줬지만, 다른 팀원분들은 간트 차트로도, 그룹화로 등등 다양한 방법을 사용하여 시각화했다. 여기서도 나의 부족함을 느꼈다. 다음 주에는 좀 더 익숙해있지 않을까?

 

아, 참고로 tableau의 select / case는 문자열에만 가능하다고 한다. 한 팀원분이 발표를 진행하면서 좋은 팁을 알려주셨다. 다음주에는 꼭 활용해봤음 좋겠다.