본문 바로가기

분류 전체보기

(100)
Section 1 Review Section 1 Review
데이터 축소(Data Reduction) 데이터 축소(Data Reduction) 많은 양의 데이터를 대상으로 분석한다면, 많은 시간 소요로 인해 비현실적입니다. 이에 따라 데이터의 축소가 필요합니다. 데이터 축소는 원래 용량 기준보다 작은 양의 데이터 표현결과를 얻게 되더라도 원 데이터의 완결성을 유지하기 위해 사용됨 => 마이닝 작업을 좀 더 효과적이고 원래 데이터와 거의 동일한 분석 결과를 얻어낼 수 있는 장점. 데이터 축소 전략 차원적 축소(Dimensionality reduction) : 데이터 인코딩 스키마를 적용해 압축되거나 축소된 표현 제공. 수치적 축소(Numerosity reduction) : 모수적 모형(Parametric model)이나 비모수적 모형(Non-Parametric model)을 사용한 데이터 대체 모수적 모형..
API API API(Application Programming Interface) 응용 프로그램에서 사용할 수 있도록, 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스를 뜻한다. API를 사용하면 구현 방식을 몰라도 제품, 서비스가 서로 커뮤니케이션 할 수 있고 애플리케이션 개발을 간소화해 시간과 비용을 절약할 수 있다. 참고 ko.wikipedia.org/wiki/API www.redhat.com/ko/topics/api/what-are-application-programming-interfaces
파이썬의 공학용 라이브러리 파이썬의 공학용 라이브러리 팬더스(Pandas) : 데이터를 표 형태의 데이터프레임(Data frame)에 넣어서 쉽게 이용할 수 있게 한다. 속도도 빠르고 API도 훌륭. 넘파이(NumPy) : 숫자 배열을 효율적으로 이용하는 데 필요한 도구. 직접 넘파이를 쓰는 것은 조금 저수준일 수도 있습니다. 팬더스는 넘파이 배열 및 문법과 호환이 잘된다. 사이킷런(Scikit - learn) : 넘파이를 기반으로 작동하는 머신러닝 라이브러리입니다. 보통 팬더스로 데이터를 불러오고 그 데이터를 넘파이 배열로 바꾼 뒤 사이킷런에 넣어서 머신러닝을 이용합니다. 맷플롯립(Matplotlib) : 데이터를 시각화하는데 사용하는 도구로 직접 사용하기에는 조금 복잡하고 지저분할 수 있는데 그런 경우 팬더스에서 제공하는 맷플..
특징값 추출(Feature Extraction) 특징값 추출(Feature Extraction) 특징값은 데이터의 여러 특징을 나타내는 값. 특징값 추출과정은 날것 그대로의 데이터를 가옹해 그 값을 표에 열심히 저장하는 단순한 일. 각 데이터의 특성을 알아야 하기에 여러 분야에 걸치 배경지식이 필요함. 왜 Feature이 필요할까? 머신러닝은 입력 데이터를 출력 데이터로 대응시켜주는 블랙박스라고 생각하면, 선형 또는 비선형 형태를 가진 입력 데이터 함수를 훈련 데이터를 사용해 학습하지만 항상 잘 되지는 않는다. 예를 들어 경기장 관중 수로 해당 야구경기 결과를 알고 싶다고 할때, 관중 수만으로 경기결과를 정확하게 예측이 가능하지는 않을 것이다. 이를 통해 머신 러닝의 성능은 데이터의 양과 질에 굉장히 의존적이다. 가장 이상적인 데이터는 부족하지도 과하..
데이터와 질문 보호되어 있는 글입니다.
Tidy data Tidy data(깔끔한 데이터) Tidy data ? Tyding : Structuring data to facilitate analysis (분석을 용이하게 하는 데이터 구조화) Tidy data there’s no need to start from scratch. -from wiki (밑바닥 부터 시작할 필요 없는 데이터) 깔끔한 데이터는 해들리 위컴(Hadley Wickham)의 14년 Journal of Statistical Software에서 발표한, 데이터 관리를 위한 새로운 개념이다. 우리말로 풀이하면 '분석하기 좋은 데이터' 로 표현할 수 있다. Tidy data의 특징 하나의 변수는 하나의 열을 구성. 각 관측치는 하나의 행을 구성. 하나의 값은 단 하나의 의미만 가지고 있어야 깔끔하게..
탐색적 데이터 분석 단계 탐색적 데이터 분석 단계 1. 문제 정의 단계 : 가장 어렵고 중요한 단계 문제가 제대로 설정되지 않으면 목표가 불분명해지고, 성과없이 끝나기 쉽다. [문제 정의가 어려운 이유] 많은 사람들이 공감할만한 가치가 있는 문제. 정의된 문제 해결을 위한 구체적인 행동 수반. 데이터의 제약사항을 극복. 분석을 위한 전문가와 분석 기간을 확보해야 함. 문제를 현재 상태와 목표 상태의 GAP이라고 생각한다면 보다 쉽게 접근할 수 있다. Ex) 어떤 회사의 매출이 3년 연속 하락(14년 : 230억, 15년 : 200억, 16년 : 180억) 직관적으로 문제라고 생각하면서 문제 정의가 쉽다고 판단. 단 현재 상태와 목표 상태가 있어야된다. 현재 매출이 100억, 목표가 100억이면 상태가 동일하기에 문제가 될 수없고..