본문 바로가기

Data

탐색적 데이터 분석 Goals of EDA

 

탐색적 데이터 분석 Goals of EDA

 

EDA? : Exploratory Data Analysis

 

  • 탐색적 자료 분석은 존 튜키라는 미국의 통계학자가 창안한 데이터 분석 방법론이다.
  • 기존 통계학이 정보 추출에 가설 검정에 치우쳐 본연의 의미를 찾는 것이 어려워 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석방법을 개발해 보완하고자 한 것.

EDA를 통해서 데이터처리부터 데이터셋 정리 후 잘처리된 데이터를 모델과 알고리즘을 수행시킨다.

 

탐색적 데이터 분석의 필요성

 

  • 데이터의 분포와 값을 검토해 데이터가 표현하는 현상의 이해와 잠재적인 문제를 발견.
  • 본격적 분석에 앞서 데이터를 추가, 재수집하는 등 결정을 내릴 수 있다.
  • 다양한 각도로 데이터를 보면서 미처 발견하지 못한 다양한 패턴과 기존의 가설을 수정 및 새로운 가설을 세울 수 있다.
  • 이후 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용한다.

탐색적 데이터 분석 과정

 

  • 문제 정의 단계에서 세운 질문과 가설을 바탕으로 분석 계획을 세운다.
  • 분석 계획에는 어떤 속성, 속성 간의 관계를 집중적으로 관찰할지, 최적의 방법은 무엇인지 포함해야함.
  • 분석의 목적과 변수를 확인하고, 개별 변수의 이름, 설명을 확인

[데이터를 전체적으로 살펴보기]

 

  1.  데이터에 문제가 없는지 확인.
  2.  head나 tail 부분을 확인.
  3.  추가적 탐색(이상치, 결측치 등 확인)

[데이터의 개별 속성값을 관찰]

  1.  각 속성 값이 예측하 범위와 분포를 갖는지 확인
  2.  그렇지 않다면, 이유를 확인

- 속성 간 관계에 맟춰, 개별 속성 관찰에서 찾아내지 못한 패턴을 발견(상관관계, 시각화 등)

 

 

참고자료

 

eda-ai-lab.tistory.com/13

www.youtube.com/watch?v=0eCbAYX-_UQ

towardsdatascience.com/the-data-science-process-a19eb7ebc41b

ko.wikipedia.org/wiki/%ED%83%90%EC%83%89%EC%A0%81_%EC%9E%90%EB%A3%8C_%EB%B6%84%EC%84%9D

'Data' 카테고리의 다른 글

데이터와 질문  (0) 2021.01.25
Tidy data  (0) 2021.01.25
탐색적 데이터 분석 단계  (0) 2021.01.25
데이터 분석 및 이해  (0) 2021.01.18
데이터 과학  (0) 2021.01.18