탐색적 데이터 분석 단계
1. 문제 정의 단계 : 가장 어렵고 중요한 단계
문제가 제대로 설정되지 않으면 목표가 불분명해지고, 성과없이 끝나기 쉽다.
[문제 정의가 어려운 이유]
- 많은 사람들이 공감할만한 가치가 있는 문제.
- 정의된 문제 해결을 위한 구체적인 행동 수반.
- 데이터의 제약사항을 극복.
- 분석을 위한 전문가와 분석 기간을 확보해야 함.
문제를 현재 상태와 목표 상태의 GAP이라고 생각한다면 보다 쉽게 접근할 수 있다.
Ex) 어떤 회사의 매출이 3년 연속 하락(14년 : 230억, 15년 : 200억, 16년 : 180억) 직관적으로 문제라고 생각하면서 문제 정의가 쉽다고 판단.
단 현재 상태와 목표 상태가 있어야된다. 현재 매출이 100억, 목표가 100억이면 상태가 동일하기에 문제가 될 수없고 목표가 180억이면 현재 상태와 80억 차이가 나게 되어 문제를 정의할 수 있다.
잘 알거나 관심있는 분야를 선택하면 문제를 정의하기 쉽다. 또한 모든 사람들이 이해할 수 있도록 구체적이고 명료해야한다. 또한 목표 수준을 최대한 자세하고, 정량적으로 표현하는 것이 중요.
2. 데이터 수집 : 주변에서부터 시작해 온, 오프라인까지
주변에서부터 시작해 필요한 데이터를 찾고, 온라인, 오프라인 상관없이 필요한 자료를 수집해야한다.
내가 가지고 있는 자료가 가치가 있을 수도 있고, 더 많은 데이터가 가치가 있을 수도 있다.
3. 데이터 전처리 : 가장 많은 시간이 소요되는 단계
데이터 분석가는 업무 시간 중 80%정도를 데이터 수집 전처리 과정에 사용한다고 합니다.
- 중복값 제거
- 결측값 보정
- 데이터 연계/통합
- 데이터 구조 변경 : Tidy data
4. 데이터 모델링 단계
분석은 나누고 쪼개는 과정, 데이터 분석 과정에서 분석 대상을 나누고 쪼개면서 그 결과를 사실 테이블과 차원 테이블로 구성하는 것이 모델링의 핵심.
5. 시각화 및 탐색 단계
패턴을 찾고 인사이트를 얻는 단계
정의한 문제에 대한 답을 찾는 단계이다.
데이터 시각화를 통해 요약하고 사람이 보기 쉬운 형태로 표현해 데이터 안에 숨겨진 유의미한 인사이트를 발견할 수 있도록 도와준다.
참고자료
m.post.naver.com/viewer/postView.nhn?volumeNo=6605298&memberNo=3185448
'Data' 카테고리의 다른 글
데이터와 질문 (0) | 2021.01.25 |
---|---|
Tidy data (0) | 2021.01.25 |
탐색적 데이터 분석 Goals of EDA (1) | 2021.01.25 |
데이터 분석 및 이해 (0) | 2021.01.18 |
데이터 과학 (0) | 2021.01.18 |