본문 바로가기
v3 | Tableau Deep Dive

[2]-1. 데이터 해석기

by VizLab 2019. 10. 3.

두번째 토픽, Data Preparation을 시작해보려고 합니다

 

우리가 통계청, 공공기관의 웹사이트 등에서 다운로드 받은 데이터셋의 다수는 태블로가 읽어들여 분석하기 편한 포맷이 아닙니다

 

우리는 셀이 병합되어 있고, 가운데 정렬이 되어 있고, 눈의 초점이 흘러가는 오른쪽 방향으로 데이터가 나열되어 있어야 보기가 편한데,

태블로로 데이터를 처리함에 있어서 이런 요소들은 장애로 작용하게 됩니다

 

데이터셋을 태블로가 처리하기 좋은 형태로 만들기 위해 지금까지 우리는 여러가지 수작업들을 해왔던 것이지요

 

사람의 손이 많이 간다는 것은 바람직한 일이 결코 아닙니다

그래서 가급적 쉽고, 빠르고, 정확하게 처리할 수 있는 기술들이 쏟아지고 있는 중인지도 모르겠습니다

제가 사용하고 있는 Alteryx도 그렇고, 태블로에서 자체적으로 런칭한 Tableau Prep 또한 그런 목적을 달성하기 위한 툴입니다

그 외에도 수많은 오픈 소스들이 있는 것으로 알고 있습니다

 

그런데 이런 소프트웨어들은 태블로와는 별개의 것이기 때문에

적절한 방법을 통해 구비해야하고, 별도로 설치를 해야합니다, 쉽지 않다는 것이지요

 

아주 완벽하지는 않지만, 태블로는 그 수고를 상당히 덜어줄 수 있는 몇 가지 기능들을 자체 보유하고 있습니다

가벼운 정도의 데이터 정리 및 정제는 태블로 내에서 해결이 가능하다는 말이지요

 

두번째 토픽 Data Preparation에서는 바로 이 부분에 초점을 맞추어보려고 합니다

 

 

 

We Are Here


[1] Tableau Fundamentals

[2] Data Preparation

   ▪  Data Interpreter

   ▪  Pivot

   ▪  Split

   ▪  Data Source Filter

   ▪  Custom SQL

[3] Manipulating Data

[4] Building a Chart

[5] Analytics Pane

[6] Filter

[7] Table Calculation

[8] Parameter

[9] Level of Detail Expressions

[10] Map

[11] Dashboard Rendering

 

 

 

첫번째, 데이터 해석기(Data Interpreter)


먼저 Data Interpreter, 데이터 해석기부터 살펴보겠습니다

 

앞으로 이어질 Data Preparation 파트는

T-Money에서 제공하는 '교통카드 데이터 - 지하철 시간대별 이용현황'을 활용하겠습니다 

2018년 8월 교통카드 통계자료 엑셀 파일을 다운로드 받았습니다

 

이렇게 생겼습니다

 

 

태블로 관점에서 봤을 때 이 데이터셋은 몇 가지 문제가 있습니다

 

(1) 상단 시간 부분에서 병합된 셀 존재

(2) 데이터가 세로 형태가 아니라 가로 형태로, 옆으로 길게 붙어있음

(3) 차원과 측정값의 구분이 모호함

 

각각의 문제에 대한 해결책을 한 번 생각해보면,

 

(1) 시간대를 나타내는 셀이 병합 처리 되어있습니다, 병합을 풀어줘야 합니다

(2) 다음은 중요한 분석 차원으로 활용할 수 있는 시간대가 오른쪽으로 뻗어 있어, 세로로 길게 만들어줘야 합니다

(3) 마지막으로 승차와 하차에 표시된 숫자는 모두 인원수를 의미하므로, 승/하차 차원을 생성하고 측정값은 인원수로 잡아줘야 합니다

 

오늘 익히게 될 데이터 해석기는 (1)번 문제를 해결하는게 유용합니다

 

먼저 데이터를 태블로에 연결한 후 '지하철 시간대별 이용현황' 시트를 Drag & Drop 합니다

 

 

필드명이 좀 이상한 것이 한 눈에 확인되고 있습니다

 

보아하니, 엑셀 데이터의 1행을 필드명(header)로 인식하고, 2행부터는 데이터로 인식하고 있는 것 같군요

그런데 엑셀 데이터의 2행도 여전히 필드명으로 보는 것이 맞겠죠, 실제 데이터는 3행부터 들어있습니다

 

바로 이 지점에서 데이터 해석기의 마법을 확인할 수 있습니다

 

위의 그림 왼쪽 상단을 클로즈업 해보면,

'시트'라는 글씨 아래 부분에

'데이터 해석기 사용'이라고 되어있고,

바로 앞에 체크박스가 하나 보입니다

 

박스를 체크해볼까요?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

데이터 미리보기 첫번째 행에서 보였던 NULL 항목이 더 이상 보이지 않습니다

 

 

04:00:00 으로 시작하는 똑같은 필드가 두개 있는 것처럼 보이지만,

첫번째는 '04:00:00~04:59:59 승차' 이고, 두번째는 '04:00:00~04:59:59 하차' 입니다

 

처음에 제기한 3개의 문제점 중 (1)번, '병합된 셀 처리하기'는 이렇게 간단하게 클릭 한 번 만으로 해결할 수 있습니다 :D

 

조금 더 살펴보죠

 

방금 클릭한 체크박스 아래에

'결과를 검토하십시오' 라고 나오고 있군요

 

어떤 내용인지 확인해보겠습니다

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

엑셀 시트가 하나 뜨게 되고 첫 시트에 다음과 같은 메세지들이 나옵니다, 같이 붙어있는 시트를 읽을 때 이런 것들을 참고하라는 내용입니다

 

 

 

어떤 식으로 처리되었는지 보겠습니다

 

붉은색 부분은 필드명으로 인식했고, 초록색 부분은 데이터 원본으로 인식해서 데이터 정리했다, 맞니? 이렇게 묻고 있는 것이지요

아무런 문제가 없습니다
데이터 해석기를 자주 활용하는 제 경험에 비춰봤을 때 굳이 이 문서를 펼치지 않아도 지금까지 별다른 이슈 없이 잘 활용하였습니다
생각보다 똑똑한거 같으니 요긴하게 사용하면서 노가다의 번거로움을 덜어보는건 어떨런지요? :D

 

 

 

태블로 데스크탑 데이터 정제 패키지의 1번 타자


데이터 해석기는 앞으로 이어지게 될 Pivot - Split - Data Source Filter 까지 한 통으로 엮여있는 패키지로 봐도 무방할 것 같습니다

그 중 하나만 쓰는 경우는 잘 없기 때문이죠

따라서 앞으로의 논의도 위의 예제를 통해서 이어가보겠습니다

네 가지 기능을 모두 익히게 되면, 태블로에 기본적으로 제공하는 Data Cleansing 기능이 꽤나 강력함을 확인할 수 있을 것입니다

 

본 포스트에 대한 모든 아이디어는 다음의 리소스를 참고하였습니다

 

▪  Tableau Help, Clean Data from Excel, CSV, PDF, and Google Sheets with Data Interpreter

 

'v3 | Tableau Deep Dive' 카테고리의 다른 글

[2]-3. 사용자 지정 분할  (1) 2019.10.04
[2]-2. 피벗  (1) 2019.10.03
[1]-3. Level of Detail  (2) 2019.10.02
[1]-2. 연속형과 불연속형 (3)  (1) 2019.10.02
[1]-2. 연속형과 불연속형 (2)  (3) 2019.10.02