본문 바로가기

Data

탐색적 데이터 분석 단계

탐색적 데이터 분석 단계

 

탐색적 데이터 분석 단계

1. 문제 정의 단계 : 가장 어렵고 중요한 단계

 

문제가 제대로 설정되지 않으면 목표가 불분명해지고, 성과없이 끝나기 쉽다.

 

[문제 정의가 어려운 이유]

  • 많은 사람들이 공감할만한 가치가 있는 문제.
  • 정의된 문제 해결을 위한 구체적인 행동 수반.
  • 데이터의 제약사항을 극복.
  • 분석을 위한 전문가와 분석 기간을 확보해야 함.

문제를 현재 상태와 목표 상태의 GAP이라고 생각한다면 보다 쉽게 접근할 수 있다.

Ex) 어떤 회사의 매출이 3년 연속 하락(14년 : 230억, 15년 : 200억, 16년 : 180억) 직관적으로 문제라고 생각하면서 문제 정의가 쉽다고 판단. 

 

단 현재 상태와 목표 상태가 있어야된다. 현재 매출이 100억, 목표가 100억이면 상태가 동일하기에 문제가 될 수없고 목표가 180억이면 현재 상태와 80억 차이가 나게 되어 문제를 정의할 수 있다.

 

잘 알거나 관심있는 분야를 선택하면 문제를 정의하기 쉽다. 또한 모든 사람들이 이해할 수 있도록 구체적이고 명료해야한다. 또한 목표 수준을 최대한 자세하고, 정량적으로 표현하는 것이 중요.

 

2. 데이터 수집 : 주변에서부터 시작해 온, 오프라인까지

 

주변에서부터 시작해 필요한 데이터를 찾고, 온라인, 오프라인 상관없이 필요한 자료를 수집해야한다. 

내가 가지고 있는 자료가 가치가 있을 수도 있고, 더 많은 데이터가 가치가 있을 수도 있다.

 

3. 데이터 전처리 : 가장 많은 시간이 소요되는 단계

 

데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 전처리 과정에 사용한다고 합니다.

 

  • 중복값 제거
  • 결측값 보정
  • 데이터 연계/통합
  • 데이터 구조 변경 : Tidy data

4. 데이터 모델링 단계

 

분석은 나누고 쪼개는 과정, 데이터 분석 과정에서 분석 대상을 나누고 쪼개면서 그 결과를 사실 테이블과 차원 테이블로 구성하는 것이 모델링의 핵심.

 

5. 시각화 및 탐색 단계

 

패턴을 찾고 인사이트를 얻는 단계

정의한 문제에 대한 답을 찾는 단계이다.

 

데이터 시각화를 통해 요약하고 사람이 보기 쉬운 형태로 표현해 데이터 안에 숨겨진 유의미한 인사이트를 발견할 수 있도록 도와준다.

 

 

 

참고자료

m.post.naver.com/viewer/postView.nhn?volumeNo=6605298&memberNo=3185448

brunch.co.kr/@data/10

brunch.co.kr/@jayjayjay/13

www.dodomira.com/2016/10/20/how_to_eda/

www.bloter.net/archives/329334

'Data' 카테고리의 다른 글

데이터와 질문  (0) 2021.01.25
Tidy data  (0) 2021.01.25
탐색적 데이터 분석 Goals of EDA  (1) 2021.01.25
데이터 분석 및 이해  (0) 2021.01.18
데이터 과학  (0) 2021.01.18