탐색적 데이터 분석 Goals of EDA
EDA? : Exploratory Data Analysis
- 탐색적 자료 분석은 존 튜키라는 미국의 통계학자가 창안한 데이터 분석 방법론이다.
- 기존 통계학이 정보 추출에 가설 검정에 치우쳐 본연의 의미를 찾는 것이 어려워 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석방법을 개발해 보완하고자 한 것.
EDA를 통해서 데이터처리부터 데이터셋 정리 후 잘처리된 데이터를 모델과 알고리즘을 수행시킨다.
탐색적 데이터 분석의 필요성
- 데이터의 분포와 값을 검토해 데이터가 표현하는 현상의 이해와 잠재적인 문제를 발견.
- 본격적 분석에 앞서 데이터를 추가, 재수집하는 등 결정을 내릴 수 있다.
- 다양한 각도로 데이터를 보면서 미처 발견하지 못한 다양한 패턴과 기존의 가설을 수정 및 새로운 가설을 세울 수 있다.
- 이후 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용한다.
탐색적 데이터 분석 과정
- 문제 정의 단계에서 세운 질문과 가설을 바탕으로 분석 계획을 세운다.
- 분석 계획에는 어떤 속성, 속성 간의 관계를 집중적으로 관찰할지, 최적의 방법은 무엇인지 포함해야함.
- 분석의 목적과 변수를 확인하고, 개별 변수의 이름, 설명을 확인
[데이터를 전체적으로 살펴보기]
- 데이터에 문제가 없는지 확인.
- head나 tail 부분을 확인.
- 추가적 탐색(이상치, 결측치 등 확인)
[데이터의 개별 속성값을 관찰]
- 각 속성 값이 예측하 범위와 분포를 갖는지 확인
- 그렇지 않다면, 이유를 확인
- 속성 간 관계에 맟춰, 개별 속성 관찰에서 찾아내지 못한 패턴을 발견(상관관계, 시각화 등)
참고자료
www.youtube.com/watch?v=0eCbAYX-_UQ
towardsdatascience.com/the-data-science-process-a19eb7ebc41b
ko.wikipedia.org/wiki/%ED%83%90%EC%83%89%EC%A0%81_%EC%9E%90%EB%A3%8C_%EB%B6%84%EC%84%9D
'Data' 카테고리의 다른 글
데이터와 질문 (0) | 2021.01.25 |
---|---|
Tidy data (0) | 2021.01.25 |
탐색적 데이터 분석 단계 (0) | 2021.01.25 |
데이터 분석 및 이해 (0) | 2021.01.18 |
데이터 과학 (0) | 2021.01.18 |