Tidy data(깔끔한 데이터)
Tidy data ?
Tyding : Structuring data to facilitate analysis
(분석을 용이하게 하는 데이터 구조화)
Tidy data there’s no need to start from scratch. -from wiki
(밑바닥 부터 시작할 필요 없는 데이터)
깔끔한 데이터는 해들리 위컴(Hadley Wickham)의 14년 Journal of Statistical Software에서 발표한, 데이터 관리를 위한 새로운 개념이다. 우리말로 풀이하면 '분석하기 좋은 데이터' 로 표현할 수 있다.
Tidy data의 특징
- 하나의 변수는 하나의 열을 구성.
- 각 관측치는 하나의 행을 구성.
- 하나의 값은 단 하나의 의미만 가지고 있어야 깔끔하게 사용할 수 있다는 내용.
- 임의로 만든 3사람의 시간별 인스타그램 접속 횟수 데이터 입니다.
- 지저분한 데이터의 경우 데이터 추가시 문제가 발생하는데 트위터나 페이스복 접속도 표시한다면 가로로 길어지고 값만 추가 할 수는 없습니다.
- 관측치가 하나의 의미만 가진 것이 아니며, 유재석의 11시 접속횟수의 경우(22) 접속시간이 11시 + 접속횟수 라는 2가지 의미를 가지고 있습니다.
- 그래프를 그린다거나 데이터를 조작하는 측면에서 불편합니다.
- 새로운 데이터 입력 시 중복을 피할 수 있습니다.
- 하나의 관측기준에 의해서 조직된 데이터로 데이터 조작시 편리합니다.
참고
'Data' 카테고리의 다른 글
특징값 추출(Feature Extraction) (0) | 2021.01.25 |
---|---|
데이터와 질문 (0) | 2021.01.25 |
탐색적 데이터 분석 단계 (0) | 2021.01.25 |
탐색적 데이터 분석 Goals of EDA (1) | 2021.01.25 |
데이터 분석 및 이해 (0) | 2021.01.18 |