Data Science (9) 썸네일형 리스트형 토큰화(Tokenization) 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(Tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 1) Tokenization : Divide the texts into words or smaller sub-texts, which will enable good generalization of relationship .. 텍스트 전처리(Text preprocessing) 텍스트 전처리(Text preprocessing) 자연어 처리에 있어서 텍스트 전처리는 매우 중요한 작업 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 예를들어 요리를 할때 재료를 제대로 손질하지 않으면, 요리가 잘 되지 않는 것과 같습니다. 머신러닝 워크플로우(Machine Learning Workflow) 딥 러닝 또한 머신 러닝의 한 갈래로 딥 러닝 워크플로우 또한 머신 러닝 워크플로우로 간주 할 수 있습니다. 1. 머신 러닝 워크 플로우(Machine Learning Workflow) 데이터를 수집하고 머신 러닝을 하는 과정을 크게 6가지로 나누면, 아래의 그림과 같습니다. 1) 수집(Acquisition) 머신 러닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요합니다. 자연어 처리의 경우, 자연어 데이터를 말뭉치 또는 코퍼스(corpus)라고 부르는데 코퍼스의 의미를 풀이하면, 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말합니다. 코퍼스 = 텍스트 데이터의 파일 형식은 txt, csv, xml 파일 등 다양하며 그 출처도 음성 데이터, 웹 수집기를 통해 수집된 데이터, .. Anaconda 사용법 Anaconda - 아나콘다는 데이터 과학에서 사용되는 툴을 모아놓은 툴킷입니다. - Continuum 사에서 제작. - Python, R 등을 활용한 데이터 분석, 어플리케이션 개발에 도움을 주는 플랫폼입니다. - 배포판 중 가장 뛰어난 완성도로 현재는 표준으로 봐도 무방합니다. 왜 사용할까요? 1. 수많은 데이터 과학 패키지를 제공, 데이터 작업이 수월하다. 2. conda 명령어를 사용해 패키지와 환경을 관리해 발생하는 문제를 줄일 수 있다. 3. 가상환경을 설정해서 독립적인 작업환경에서 작업할 수 있습니다. 4. 프로젝트 진행 시 여러 라이브러리, 패키지를 사용하게 되는데 각 라이브러리끼리 충돌이 발생하거나 호환성의 문제가 생길 수 있습니다. 이에 아나콘다 가상환경을 사용해 프로젝트 단위별로 구성.. 데이터 시각화를 위한 단계 데이터 시각화를 위한 단계 What is Questions? 정보 시각화는 질문에서 시작한다. 1. 왜 데이터가 수집되었는가? 2. 어떤 부분이 흥미로운가? 3. 어떤 스토리를 말할 수 있는가? 데이터를 이해하는데 있어 중요한 기술 가운데 하나는 '좋은 질문들을 만드는 것' 좋은 질문이란? : 한번 듣게 되면 호기심과 흥미를 가지게 하는 질문 1. 데이터에 포함된 흥미로움을 공유 2. 다른 이들에게 전달하려고 함. 3. 호기심 지향적(Curiosity-oriented) 시각화 절차와 기법 획득 : 데이터를 획득 해석 : 데이터를 구조화 하고 분류 정제 : 관심있는 데이터만 추출 마이닝 : 통계적인 방법 혹은 데이터 마이닝 기법 적용 표현 : 바 그래프, 리스트 혹은 트리 등의 기본적인 시각 모델 선택 정.. 참고할 만한 10개의 시각화 블로그 참고할 만한 10개의 시각화 블로그 1. Storytelling with Data(데이터를 이용한 스토리텔링) 운영자: Cole Nussbaumer Knaflic 웹 사이트 링크: StorytellingWithData.com 2. Information is Beautiful(정보의 아름다움) 운영자: David McCandless 웹 사이트 링크: InformationIsBeautiful.net 3. Flowing Data(데이터 흐름) 운영자: Nathan Yau 웹 사이트 링크: FlowingData.com 4. Visualising Data(데이터 시각화) 운영자: Andy Kirk 웹 사이트 링크: VisualisingData.com 5. Junk Charts(정크 차트) 운영자: Kaiser F.. 시각화를 하는 이유 시각화를 하는 이유 1. 많은 양의 데이터를 한눈에 볼 수 있다. 데이터의 양이 많아지면, 어떻게 데이터를 보고, 데이터의 변화를 확인하는게 어렵다. 데이터 시각화는 많은 양의 데이터를 시각적 요소를 활용해 요약해 볼 수 있습니다. 한눈에 많은 양의 데이터를 볼 수 있습니다. 금융, 교통, 의료 등 빅데이터가 생산되는 다양한 분야에 데이터만 보고 현상을 파악하고 예측하기 어렵기 때문에 시각화는 필요합니다. 데이터 시각화는 다양한 형태의 유형이 있고, 데이터가 의미하는 바를 쉽게 찾고, 이해할 수 있도록 돕와줍니다. 데이터를 크기를 비교하고, 분포를 파악하거나 관련성을 찾을 수 있습니다. 데이터 시각화와 유사한 개념으로 언급되는 인포그래픽과의 차이를 알면, 왜 '데이터 시각화' 를 해야 하는지 더욱 공감할.. Pandas ? Pandas ? 판다스의 사용을 시작하는 명령어. 1 import pandas as pd cs 판다스는 파이썬 라이브러리고 판다스를 pd라는 이름으로 쓰겠다는 의미입니다. (pd는 판다스의 별칭이다.) 데이터를 표 형태의 데이터프레임에 넣어 쉽게 이용할 수 있다. 빠른 속도와 좋은 API를 제공한다. 판다스를 사용하는 이유 엑셀은 프로그램을 만들 수 없다. 파이썬으로 프로그램을 만들고 싶은데 데이터를 그 안에서 변경하고 싶다고 할 때 판다스를 사용. 판다스는 Numpy를 사용하고 있고 Numpy의 장점은 숫자를 곱하거나 나누는 계산에 유용하며 빠르다. 데이터 분석에 필수적인 자료구조를 제공하는 Python 라이브러리로 표와 같은 구조인 DataFrame로 데이터를 다룰 수 있어 직관적이다. 색인(inde.. 이전 1 2 다음