본문 바로가기

Dissecting Tableau

[1]-1. 차원과 측정값

지금이 2018년 8월이니까, 태블로를 사용한지 2년 반 정도 되어갑니다

교육도 받고, 혼자 고민도 하고, 구글링도 하고...

그렇게 저렇게 하면서 지금까지 왔고,

누군가에게 내가 익혔던 것들을 - 작고, 보잘 것 없고, 사소한 것일 수 있지만 - 나눌 수 있는 정도가 되었네요 :D

 

태블로를 이제 막 시작한 뉴비가 '태블로에서 제일 중요한게 뭐야?' 라고 물어본다면,

저는 망설이지 않고, 1초만에 다음과 같이 대답할거에요

 

'차원과 측정값을 이해하고 구분하는 것'

 

태블로의 모든 작동은 측정값을 차원으로 나누는 것

- 개인적으로 '썰다(Slice)'라는 표현을 즐겨쓴답니다 - 에서부터 시작됩니다

 

Dissecting Tableau Series 연재를 기획하면서

Tableau Fundamentals, 그 중에서도 차원과 측정값을 가장 먼저 소개하는 이유도 바로 그 때문입니다

 

 

 

Table of Contents


다음과 같은 내용들을 다뤄볼 예정이며, 순서과 콘텐츠는 다소 유동적일 수 있음을 미리 말씀드립니다 :D

 

[1] Tableau Fundamentals

   ▪  Dimension and Measure

   ▪  Continuous and Discrete

   ▪  Understanding Aggregation, Granularity, and Level of Detail

[2] Data Preparation

   ▪  Data Interpreter

   ▪  Pivot

   ▪  Split

   ▪  Data Source Filter

[3] Manipulating Data

   ▪  Join

   ▪  Union

   ▪  Blending

[4] Building a Chart

   ▪  Bar Chart

   ▪  Line Chart

     Pie Chart

   ▪  Scatter Plot

   ▪  Highlight Table

[5] Analytics Pane

   ▪  Average Line

   ▪  Reference Line

   ▪  Trend Line

   ▪  Forecasting

   ▪  Clustering

[6] Filter

   ▪  Extract Filter

   ▪  Data Source Filter

   ▪  Context Filter

   ▪  Dimension Filter

   ▪  Measure Filter

[7] Table Calculation

   ▪  Quick Table Calculation

   ▪  Window Functions

   ▪  Other Important Functions - Index, Rank, …

   ▪  Nested Table Calculation

[8] Parameter

   ▪  Creating Parameter

   ▪  Applying Parameter

[9] Level of Detail Expressions

   ▪  Fixed

   ▪  Include

   ▪  Exclude

[10] Map

   ▪  Geographic Role

   ▪  SHP Files

[11] Dashboard Rendering

   ▪  Actions

   ▪  Container

   ▪  Device

 

그 외에도, Sorting, Dual Axis, Histogram, Combined Axis Chart, Groups and Sets,

R과 Python 코드를 연결하는 Script Functions 등 다양한 콘텐츠를 구상 중에 있습니다!

 

꾸준한 관심과 적극적인 학습 부탁드립니다 :D

 

 

 

측정값(Measure), 우리가 관심을 가지는 대상 그 자체


측정값은 우리의 관심을 받는 대상 그 자체입니다

 

▪ 나는 우리 학급 학생들의 키를 분석할거야,

▪ 나는 우리나라 여행지에 대한 SNS 언급량을 살펴볼거야,

▪ 나는 우리 회사 매출액을 검토할거야

 

여기에서 키, 언급량, 매출액이 측정값입니다

 

위의 예시에서는 수치만 언급되어 있지만, 측정값이 반드시 숫자인 것은 아닙니다

이에 대해서는 다른 포스트에서 다시 검토해보도록 하죠

 

데이터를 살펴보면서 논의를 이어가겠습니다

SKT 빅데이터 허브에서 다운로드 받은 '배달 업종 이용 현황 (2018년05월)' 데이터셋입니다

 

이렇게 생겼군요

 

 

이 데이터셋에서 측정값은 통화건수입니다

어떤 날짜에, 무슨 요일에, 어떤 업종에, 어느 지역이든, 어쨌든 이 데이터셋은 통화건수를 나타내고 있습니다

 

데이터셋을 태블로에 올린 후 시트로 넘어가보면

왼쪽 데이터 탭에 그림과 같이 나옵니다

 

어? 이상합니다

통화건수가 측정값이라고 했는데, 차원에 올라가있네요? 왜 그럴까요?

 

위 엑셀 파일 이미지를 다시 보시면,

통화건수 수치 왼쪽 상단에 조그만한 초록색 삼각형 표시가 붙어있습니다

필드가 문자열로 인식되어있다는 의미입니다

 

어떻게 해결해볼까요? 아주 간단합니다

 

 

 

 

 

 

(1) 데이터를 불러들이는 단계에서 해결

 

 

통화건수 필드 위 'ABC'로 표시된 부분(회색 음영)을 클릭한 후 숫자(정수)로 바꾸시면 됩니다

 

(2) 시트로 넘어간 후 해결

 

차원에 있는 통화건수 필드를

측정값으로 Drag & Drop 하면 그림과 같구요,

여기서 필드명 앞의 'ABC' 부분을 숫자(정수)로 바꿔주시면 됩니다

 

체감상 처리속도는 방법 (2)가 더 빠른 것 같습니다

 

 

 

 

 

 

 

 

 

 

 

 

아래의 그림에서 통화건수가 측정값으로 제대로 들어온 것을 확인할 수 있습니다

기본적으로 제공되는 측정값인 레코드 수(Number of Records)는 데이터셋의 행(Row) 개수를 나타냅니다

더블클릭해서 행 선반으로 올려보시면 총 126,898개의 행이 있다는 것이 확인되네요

 

 

그림에서 보시는 바와 같이 측정값은 초록색의 타원형 도형으로 표시되고 있습니다

영어로는 그 모양이 알약과 닮았다고 해서 'Green Pill' 이라고 부른답니다

 

* 주의 *

많은 경우 측정값이 초록색 알약으로 표현되는 것은 사실이지만, 항상 그런 것은 아닙니다.

엄밀한 의미에서 초록색 알약은 다음 개념에서 다룰 연속형을 의미하는 것이지, 측정값을 의미하는 것은 아닙니다.

 

정리하면, 측정값은 우리가 관심을 가지고 있는 대상 그 자체!

 

 

 

차원(Dimension), 어떻게 썰어서 볼 것인가?


차원은 우리가 관심을 가지는 측정값을 어떻게 썰어서 볼 것인가, 바로 관점의 문제로 이해하시면 됩니다

 

앞서의 예시를 이어받아보면,

 

▪ 나는 우리 학급 학생들의 남자와 여자 즉, 성별을 기준으로 키를 분석할거야,

▪ 나는 우리나라 여행지에 대해 17개 광역지자체 분류에 따라 SNS 언급량을 살펴볼거야,

▪ 나는 우리 회사 매출액을 월별로 검토할거야

 

여기서 성별, 광역지자체, 월 등이 바로 차원입니다

어떤 관점으로 측정값을 썰어서 볼 것인가, 그 써는 기준이 차원이 되는 것이죠

 

배달 업종 데이터셋으로 돌아가보겠습니다

 

 

나는 통화건수를 살펴보고 싶은데,

 

▪ 일자별로 볼 수도 있고,

▪ 요일별로 볼 수도 있고,

▪ 시간대별로 볼 수도 있고,

▪ 업종별로 볼 수 있고,

▪ 행정구역별로 볼 수도 있습니다

 

당연한 이야기이겠지만, 위의 차원을 2개 이상 조합해서 측정값을 썰어볼 수도 있습니다

 

실제로 태블로는 왼쪽에서 보이는 바와 같이

 

▪ 시간대

▪ 시군구

▪ 시도

▪ 업종

▪ 요일

▪ 읍면동

▪ 일자 등을

 

차원 항목으로 인식하여 제공하고 있습니다

 

실제로 몇 가지 관점에서 '통화건수'라는

측정값을 썰어보겠습니다

 

 

 

(1) 사람들은 어떤 음식을 제일 많이 시켜먹을까?

 

중국음식과 치킨이 매우 높은 가운데,

중국음식이 약간 앞서고있군요

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2) 사람들은 몇 시 즈음에 어떤 배달 음식을 많이 먹지?

 

 

메뉴에 관계 없이 저녁시간에 통화량이 제일 많습니다, 그리고 저녁시간의 강자는 확실히 치킨이구요

중국음식은 오히려 점심시간대가 저녁시간보다 주문량이 많은 것도 하나의 포인트가 될 수 있겠네요

 

(3) 혹시 특정 요일에 배달 주문이 집중되는 것은 아닐까?

 

 

대체적으로 주말이 주중보다 주문량이 약간 많은 것 같고,

월요일에 떨어지는 경향은 아마 주말에 열심히 일한 후 월요일에 쉬는 가게가 많아서일 것 같습니다

 

위의 세 가지 예시 모두 통화건수를 다 합치면 전체 통화건수 1,217,314건이 나옵니다

측정값(통화건수)을 자르는 기준만 다를 뿐, 자른 부분들의 합이 전체가 되는 것은 동일합니다

 

또한 측정값이 주로 Green Pill로 표현된다면, 차원은 주로 Blue Pill로 표현되는 것이겠죠

 

* 주의 *

측정값이 100% 초록색 알약이 아니듯이, 차원 또한 언제나 파란색 알약인 것은 아닙니다. 많은 경우에 그렇게 표현된다는 것이지요. 파란색 알약은 정확히 다음 개념에서 배울 불연속형을 의미합니다.

 

정리하면, 차원은 측정값을 썰어보는 기준 또는 관점!

 

 

 

빵, 떡, 그리고  쿠키 커터


적절한 예시가 될지는 모르겠지만,

아래의 쿠키 커터 그림이 측정값과 차원을 이해하는 단초를 제공해줄 듯 싶습니다

 

하트 모양으로 만들 수도 있고, 별 모양으로 자를 수도 있습니다

이게 바로 차원입니다

 

그런데 이런 커터를 활용하여 쿠키, 떡 , 빵 등을 자를 수 있습니다.

여기에서 쿠키, 떡, 빵이 측정값인 것이죠

 

 

 

 

 

 

데이터셋에서 측정값과 차원을 구별해내는 것은 매우 중요합니다

데이터를 탐색하는 사람이 가지고 있는 관점, 가설, 연구의 방향과 밀접하게 연관되어 있기 때문입니다

 

안타깝게도 우리 주위에서 발견되는 데이터셋은 측정값과 차원의 구별이 애매한 경우가 많은데,

이 경우 어떻게 처리할 것인지에 대해서는 Chapter 2 - Data Preparation 부분에서 살펴볼 것입니다

 

다시 강조하지만,

측정값과 차원을 명확히 이해하고 구분하는 것은

태블로의 작동 원리를 이해하는 핵심적인 요소입니다 :D

 

사업자 정보 표시
비즈랩 | 최정민 | 경기도 용인시 기흥구 중부대로746번길 21, 210-1503 | 사업자 등록번호 : 534-02-01239 | TEL : 070-8095-4524 | 통신판매신고번호 : 제2020-용인기흥-0205호 | 사이버몰의 이용약관 바로가기

'Dissecting Tableau' 카테고리의 다른 글

[2]-1. 데이터 해석기  (1) 2019.10.03
[1]-3. Level of Detail  (1) 2019.10.02
[1]-2. 연속형과 불연속형 (3)  (1) 2019.10.02
[1]-2. 연속형과 불연속형 (2)  (1) 2019.10.02
[1]-2. 연속형과 불연속형 (1)  (1) 2019.10.01
[1]-1. 차원과 측정값  (1) 2019.10.01