본문 바로가기

Data

Tidy data

Tidy data(깔끔한 데이터)

 

Tidy data ?

 

Tyding : Structuring data to facilitate analysis

(분석을 용이하게 하는 데이터 구조화)

 

Tidy data there’s no need to start from scratch. -from wiki

(밑바닥 부터 시작할 필요 없는 데이터)

 

깔끔한 데이터는 해들리 위컴(Hadley Wickham)의 14년 Journal of Statistical Software에서 발표한, 데이터 관리를 위한 새로운 개념이다. 우리말로 풀이하면 '분석하기 좋은 데이터' 로 표현할 수 있다.

 

Tidy data의 특징

 

  1. 하나의 변수는 하나의 열을 구성.
  2. 각 관측치는 하나의 행을 구성.
  3. 하나의 값은 단 하나의 의미만 가지고 있어야 깔끔하게 사용할 수 있다는 내용.

 

지저분한 데이터 예시

  • 임의로 만든 3사람의 시간별 인스타그램 접속 횟수 데이터 입니다. 
  • 지저분한 데이터의 경우 데이터 추가시 문제가 발생하는데 트위터나 페이스복 접속도 표시한다면 가로로 길어지고 값만 추가 할 수는 없습니다. 
  • 관측치가 하나의 의미만 가진 것이 아니며, 유재석의 11시 접속횟수의 경우(22) 접속시간이 11시 + 접속횟수 라는 2가지 의미를 가지고 있습니다.
  • 그래프를 그린다거나 데이터를 조작하는 측면에서 불편합니다.

깔끔한 데이터 예시

  • 새로운 데이터 입력 시 중복을 피할 수 있습니다.
  • 하나의 관측기준에 의해서 조직된 데이터로 데이터 조작시 편리합니다.

 

참고

www.incodom.kr/tidy_data

partrita.github.io/posts/tidy-data/

www.bloter.net/archives/244322

'Data' 카테고리의 다른 글

특징값 추출(Feature Extraction)  (0) 2021.01.25
데이터와 질문  (0) 2021.01.25
탐색적 데이터 분석 단계  (0) 2021.01.25
탐색적 데이터 분석 Goals of EDA  (1) 2021.01.25
데이터 분석 및 이해  (0) 2021.01.18