본문 바로가기
v5 | Data Prep

데이터 프렙 챌린지: 아동패널 데이터 정리 (2)

by VizLab 2022. 2. 18.

Data from 한국아동패널 https://panel.kicce.re.kr/pskc/index.do

Challenge Designed by VizLab (IDEA from 성연서)

 

Input: 아동패널 데이터 정리 (1) 참고 https://vizlab.tistory.com/152

 

Output

  • 방대한 데이터셋에서 "가족상호작용", "행복감", "자아존중감", "학교적응력", "학업수행능력", "의사소통능력" 등 6개 항목과 관련된 변수 109개 추출 (ID 필드 포함)
  • 상기 109개 필드를 6개의 질문 카테고리로 구분
  • 각 질문 카테고리별로 응답에 대한 평균값(점수) 도출 (의사소통능력 카테고리에 존재하는 무응답 코드 99999999 제외 후 계산)
  • 각 질문 카테고리가 개별 열로 인식되는 데이터셋(crosstab structure)과 하나의 필드 안에 값으로 인식되는 데이터셋(columnar structure) 구성
  • 모든 질문 카테고리에 값이 존재하는 관측치만 유지 (crosstab structure에서 최종 695개의 행 유지)

crosstab structure

columnar structure

 

Logic

  • 데이터셋 로딩을 각 질문 카테고리별로 수행 (Alteryx: Select Tool / Tableau Prep: Multiple Input 방식)
  • 각 질문 카테고리별 피벗 후 집계 (총 6개의 데이터 덩어리)
  • ID를 키값으로 조인
  • 하나의 질문 카테고리라도 NULL 값이 존재하는 경우 필터로 제외

 

Alteryx

ChildrenPanel2.yxzp
0.86MB

 

Tableau Prep

ChildrenPanel2.tflx
5.04MB