본문 바로가기

Data

특징값 추출(Feature Extraction)

특징값 추출(Feature Extraction)

 

특징값은 데이터의 여러 특징을 나타내는 값.

특징값 추출과정은 날것 그대로의 데이터를 가옹해 그 값을 표에 열심히 저장하는 단순한 일.

각 데이터의 특성을 알아야 하기에 여러 분야에 걸치 배경지식이 필요함.

 

왜 Feature이 필요할까?

 

머신러닝은 입력 데이터를 출력 데이터로 대응시켜주는 블랙박스라고 생각하면, 선형 또는 비선형 형태를 가진 입력 데이터 함수를 훈련 데이터를 사용해 학습하지만 항상 잘 되지는 않는다.

 

예를 들어 경기장 관중 수로 해당 야구경기 결과를 알고 싶다고 할때, 관중 수만으로 경기결과를 정확하게 예측이 가능하지는 않을 것이다. 이를 통해 머신 러닝의 성능은 데이터의 양과 질에 굉장히 의존적이다. 

 

가장 이상적인 데이터는 부족하지도 과하지도 않은 정확한 정보만을 포함하는데 풀고자 하는 문제에 대한 완벽한 배경지식이 없기 때문에 올바를 정보만을 모으기는 힘들다. 이러한 충분한 배경 지식이 없기 때문에 우리가 머신 러닝 기법을 적용하려고 하는 것이다. 

 

따라서 우리는 먼저 충분한 데이터를 모으고 어떤 Feature가 유용한지 확인하는 과정을 거치는데 이 것을 특징선택(Feature selection) 또는 특징 추출(Feature extraction)이라고 합니다.

 

이 과정은 기존 입력으로 새로운 입력 데이터를 만들기 때문에 learning 과정 전에 실해이 되고 핵심적인 전처리 과정 중 하나입니다.

 

출처

terryum.io/korean/2016/05/05/FeatureSelection_KOR/

'Data' 카테고리의 다른 글

Dataframe, Series  (0) 2021.01.26
데이터 축소(Data Reduction)  (0) 2021.01.25
데이터와 질문  (0) 2021.01.25
Tidy data  (0) 2021.01.25
탐색적 데이터 분석 단계  (0) 2021.01.25