본문 바로가기

Data

(15)
MySQL MySQL 인류를 오랫동안 컴퓨터를 이용해서 정보를 관리하고 싶어했다. file 이라는 형태로 저장했지만, file만으로는 부족했습니다. 1960년대 부터 file의 한계를 극복하기 위해 database라는 개념이 나옴 그 후 관계형데이터베이스 데이터를 표를 형태로 정리 정렬과 검색을 빠르고 편리하게 안전하게 관리할 수 있다. 관계형 데이터 베이스라는 이론적 토대로 만들어진 소프트웨어 MySQL 1994년 스웨덴에서 개발되기 시작, 무료이고 오픈소스이면서 관계형 데이터 베이스의 기능을 대부분 가지고 있는 시스템입니다. WEB이 폭발적인 성장을 하면서 웹개발자들은 WEB 개발을 진행하면서 웹페이지를 통해서 표현의 정보를 저장할 데이터베이스를 찾게 되는데 무료면서 오픈소스였던 MySQL은 웹개발자들에게는 매..
관계형 데이터베이스의 필요성 Profile에 developer가 중복되고 있다. 중복되고 있다는 것은 개선할 것이 있다는 중요한 신호. 지금은 행이 5개이지만 1억개 이거나 중복되는 데이터가 천만개라면 여러가지 문제점을 발생시킬 것이다. 굉장히 복잡하고 어려운 데이터가 천만번 등장한다면 기술적으로도 손해이고 수정을 하기도 어려울 것이다. 어떻게 해결을 해야할까? 저자들에 대한 정보를 별도의 표를 뺀다. topic에 대한 정보도 별도의 표로 뺀다. 중복데이터는 사라지고, 각각의 데이터에 대한 author 테이블의 id값으로 대체가 되었다. 이전에 있었던 표와 비교했을때 author 테이블의 name의 값을 바꾼다면 author 테이블을 참조하고 있는 모든 테이블에서 데이터가 변경 했다고 할 수 있습니다. 또한 동명이인 일때도 id로 ..
데이터베이스 데이터가 중요한 이유는 데이터를 가공해 다양한 일을 할 수 있습니다. 인터넷에 연결된 웹과 앱을 통해 소식과 지식을 전파할 수 있고 빅데이터나 인공지능 기술을 이용해 대규모의 데이터로 부터 통찰력 있는 분석결과를 뽑아낼 수 있다. 이런 것을 하기 위해서는 데이터를 저장하고 뽑아 낼 수 있어야한다. 그래서 우리가 선택할 수 있는 첫번째는 file입니다. 배우기가 쉽고 이해하기도 쉽고 간편하게 전송도 가능하다. 파일이라고 해서 만능은 아니고 성능이나 보안이나 편의성의 한계를 가지고 있습니다. 파일이 가진 한계를 극복하기 위해 고안된 전문화된 소프트웨어가 database 입니다. 입력과 출력을 파악한다면 그 데이터베이스를 반을 안다. CRUD Create Read Update Delete 파일이 어떻게 데이터..
데이터베이스 정규화 정규화란? 데이터베이스에서 데이터를 효율적으로 구성하는 프로세서. 데이터베이스 정규화의 목적 1. 불필요한 데이터(data redundancy)를 제거한다.(예 : 둘 이상의 테이블에 동일한 데이터 저장) 2. 데이터 종속성(Database Dependencies)이 합리적 임을 확인 (테이블 관련데이터 저장) - 데이터베이스가 사용하는 공간을 줄이고 데이터가 논리적으로 저장되도록 한다. -> 데이터 저장을 논리적으로 한다 = 데이터 테이블 구성이 논리적이고 직관적이어야 한다. 1) 정규화를 하지 않았을때 문제점 일반적인 형식 데이터베이스가 정규화되도록하기위한 일련의 형식이 있는데, 이것을 정규 형식이라고 한다. (1NF, 2NF, 3NF, 4NF, 5NF) 1차 정규형(1NF) 1차 정규형은 각 행마다..
결측치 처리(Missing Value) 결측치 처리(Missing Value) 1. 결측 데이터의 종류 1) 완전 무작위 결측(MCAR : Missing completely at random) 변수 상에서 발생한 결측치가 다른 변수들과 아무런 상관이 없는 경우. 대부분의 결측치 처리 패키지가 MCAR을 가정으로 하고, 우리가 보통 생각하는 결측치 Ex) 데이터 입력을 깜빡하고 미입력, 전산오류 누락 2) 무작위 결측(MAR : Missing at random) 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우. 누락이 전체 정보가 있는 변수로 설명이 될 수 있다. Ex) 남성은 우울증 설문 조사에 기입 할 확률은 적지만 우울함의 정도와는 상관이 없는 경우. 3) 비 무작위 결측(MNAR : Missing at..
데이터 셋(Data set) 데이터 셋(Data set) Data set 자료 집합 또는 자료의 모임. 하나의 데이터베이스 테이블의 내용이나 하나의 통계적 자료 행렬과 일치한다. 하나가 각각 여러 속성으로 묘사되는 관측치의 집합인 데이터로 구성 데이터 세트의 가장 기본 형식은 분석 기록(Analytics record)라고 부르는 n x m의 형태의 데이터 행렬. n은 관측지의 개수(행), m은 속성의 개수(열) 분석 기록은 보통 다양한 출저의 정보를 합쳐서 구축이 된다. - 여러 데이터베이스 - 데이터 창고 - 다양한 형식의 파일(스프레드시트, csv) - 인터넷 수집 데이터 - 소셜미디어 수집 데이터
Dataframe, Series Dataframe, Series DataFrame DataFrame 은 행과 열로 이루어진 데이터 구조이다. DataFrame 의 각 열은 Series로 구성되어 있다. DataFrame은 다양한 유형의 데이터(문자 'string' , 정수 'int', 부동 소수점 값 'float' , 범주형 'category' 데이터 등)를 저장할 수 있는 2차원 데이터 구조이다. 표와 같은 스프레드시트 형식의 자료구조 열(column): 특성(feature), 속성(attribute), 변수(variable), field 행(row): 개채(instance), 관측치(observed value), 기록(record), 사례(example), 경우(case) Series 데이터프레임의 열이 시리즈 동일한 자료형으로 이..
데이터 축소(Data Reduction) 데이터 축소(Data Reduction) 많은 양의 데이터를 대상으로 분석한다면, 많은 시간 소요로 인해 비현실적입니다. 이에 따라 데이터의 축소가 필요합니다. 데이터 축소는 원래 용량 기준보다 작은 양의 데이터 표현결과를 얻게 되더라도 원 데이터의 완결성을 유지하기 위해 사용됨 => 마이닝 작업을 좀 더 효과적이고 원래 데이터와 거의 동일한 분석 결과를 얻어낼 수 있는 장점. 데이터 축소 전략 차원적 축소(Dimensionality reduction) : 데이터 인코딩 스키마를 적용해 압축되거나 축소된 표현 제공. 수치적 축소(Numerosity reduction) : 모수적 모형(Parametric model)이나 비모수적 모형(Non-Parametric model)을 사용한 데이터 대체 모수적 모형..