데이터

2023. 10. 23. 16:17빅데이터 수학 기초

 

데이터를 이해하기 위해  DIKW pyramid를 살펴보자.

DIKW pyramid는 데이터가 정보가 되고, 정보가 지식이 되고, 지식이 지혜가 됨을 나타낸다.

예시를 들면 '집앞 신호등은 빨간 불이다.' 는 데이터가 아니다.

'집앞 신호등은 빨간 불이다.' 는 정보에 해당이 되고 이 정보에 근간이 되는 자료, 즉 좌표와 색이 이 정보를 이루는 데이터가 된다.

그리고 '집앞 신호등은 빨간 불이다.' 를 통해 도출한 것, '내가 건너려는 신호는 빨간불이다.' 는 지식이고 이것을 바탕으로 내는 결과 '멈추는게 좋겠다.' 가 최종적으로 지식이 된다.

 

가장 기초가 되는 사실과 자료가 데이터라고 할 수 있다!

 

이제 데이터 분류에 대해서 생각해보자.

데이터를 나누려고 한다면 우리는

1. 데이터의 집합이 어떤 형태를 가지는지,

2. 데이터 집합에서 각각의 데이터가 가지는 값이 어떤지,

이 두가지로 기준으로 분류할 수 있따.

 

먼저 데이터 집합이 이루는 형태에 따라 정형 / 반정형 / 비정형 으로 나눌 수 있다.

각각 엑셀 , XML , mp3 자료를 생각해보면 감이 잡힌다.

 

1. 데이터 집합이 이루는 형태

데이터 집합에 있는 각각의 데이터 객체들에 대해서 각 객체가 가지는 속성이 있다.

엑셀에 정리된 데이터를 생각하면 각 객체들은 같은 속성을 가진다. 즉 속성이 정해져 있다. (정형)

XML같은 경우 태그로 객체들이 정의가 되어있고 객체마다 속성을 가지지만 모든 객체가 같은 속성을 가지진 않는다.(비정형)

mp3 파일을 생각하면 뭐가 객체고 뭐가 속성인지 구분이 가지않는다. (비정형)

 

 

2 . 데이터가 가지는 값

명목형 : 데이터간 우열이 없다.

ex) 음식 이름 : 치킨 , 우동 

순서형 : 데이터간 우열이 있다.

ex) 선호정도 : 매우 좋음 , 좋음 ,보통 , 나쁨, 매우 나쁨

연속형 : 가질 수 있는 값들의 집합이 값이 연속적.

이산형 : 가질 수 있는 값들의 집합이 분리.

 

데이터의 종류

레코드 데이터 : 우리가 흔히 접하는 데이터. 고정된 수의 속성 각 레코드(record = subject)의 모음으로 구성

트렌젝션 데이터 : 구매자와 구매물품 목록 형태로 이루어짐.

쉽게 말하자면 구매자에 대한 DB가 있고 각 구매자마다 구매물품목록에 대한 DB가 있음.

좀더 파면 트랜젝션으로 기록되고 원자성이 있고 .... 여러 내용이 있음.

 

데이터 행렬 : 각 개체에 대한 속성을 모아둠.

 

이밖에도 희박한 데이터 행렬(넷플릭스 유저별 영화 시청 유무 , 결측값이 더 많음),

그래프 데이터(관계를 알 수 있음), 연속데이터, 서열 데이터 , 시계열 데이터, 공간 데이터 등등 많음.

 

 

 

'빅데이터 수학 기초' 카테고리의 다른 글

정보학  (2) 2023.10.24
빅데이터 선형대수학  (1) 2023.10.23
빅데이터 수학 기초론 문제풀이 week7  (0) 2023.10.22
빅데이터 수학 기초론 문제풀이 week6  (0) 2023.10.22