Data Science/Machine Learning (3) 썸네일형 리스트형 토큰화(Tokenization) 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(Tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 1) Tokenization : Divide the texts into words or smaller sub-texts, which will enable good generalization of relationship .. 텍스트 전처리(Text preprocessing) 텍스트 전처리(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요한 작업 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 예를들어 요리를 할때 재료를 제대로 손질하지 않으면, 요리가 잘 되지 않는 것과 같습니다. 머신러닝 워크플로우(Machine Learning Workflow) 딥 러닝 또한 머신 러닝의 한 갈래로 딥 러닝 워크플로우 또한 머신 러닝 워크플로우로 간주 할 수 있습니다. 1. 머신 러닝 워크 플로우(Machine Learning Workflow) 데이터를 수집하고 머신 러닝을 하는 과정을 크게 6가지로 나누면, 아래의 그림과 같습니다. 1) 수집(Acquisition) 머신 러닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요합니다. 자연어 처리의 경우, 자연어 데이터를 말뭉치 또는 코퍼스(corpus)라고 부르는데 코퍼스의 의미를 풀이하면, 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말합니다. 코퍼스 = 텍스트 데이터의 파일 형식은 txt, csv, xml 파일 등 다양하며 그 출처도 음성 데이터, 웹 수집기를 통해 수집된 데이터, .. 이전 1 다음