빅데이터 수학 기초(5)
-
정보학
차원의 저주 ex1 ) 분류 문제 각 영역을 분류하는 문제인데 어떻게 분류되는지 이해할 수 없음 1차원에서 3등분을 나누면 그냥 3등분이 나눠지는건데 이차원에선 3등분하면 9개의 공간이 나오고 3차원에서 3등분하면 27개의 공간이 나옴. 맘대로 나누지 못함. ex2) point간 거리 차원이 높아질수록 가장 가까운 곳과 먼 곳의 거리가 0에 수렴하게 됨. ex3) cosine similarity 두 벡터간 유사도를 구하는 방법으로 내적과 벡터의 크기를 나누는 방법이다. 해당 기법을 사용하면 [-1,1] 구간의 값이 나온다. 직교일때 0 (cos π/2 = 0), 벡터의 각도에 의존한다는 특징이 있는 기법이다. 차원이 높아질수록 이 기법을 사용할 때 차원이 높아질수록 벡터간의 유사성이 사라져간다. ex4)..
2023.10.24 -
빅데이터 선형대수학
일단 생소할 수 있는 부분에 대해서만 다루겠다. 1. Graph or relation 각 점이 있을 때 행렬로 그래프를 나타낼 수 있다. 또 각 정점에 대한 간선을 생각해서 결합행렬을 정의할 수 있다. 2. incidence matrix 각 정점을 보자. 1번 간선과 2번 간선은 1번 정점에나 나가는 간선이고 4번 간선은 1번 정점으로 들어오는 간선이다. Aij에서 i가 1일 때 1번 정점으로부터 출발된 간선을 -1, 나간 간선을 1 , 없는 간선을 0을 줘서 1행을 구성할 수 있다. 3. inner production 로 표시하고 a^tb 를 시행하는 것이다. (열벡터 가정) = ||a||||b||cosθ θ = / ||a||||b|| cos^-1θ 추후 cosine distance 에 쓰일 수 있다...
2023.10.23 -
데이터
데이터를 이해하기 위해 DIKW pyramid를 살펴보자. DIKW pyramid는 데이터가 정보가 되고, 정보가 지식이 되고, 지식이 지혜가 됨을 나타낸다. 예시를 들면 '집앞 신호등은 빨간 불이다.' 는 데이터가 아니다. '집앞 신호등은 빨간 불이다.' 는 정보에 해당이 되고 이 정보에 근간이 되는 자료, 즉 좌표와 색이 이 정보를 이루는 데이터가 된다. 그리고 '집앞 신호등은 빨간 불이다.' 를 통해 도출한 것, '내가 건너려는 신호는 빨간불이다.' 는 지식이고 이것을 바탕으로 내는 결과 '멈추는게 좋겠다.' 가 최종적으로 지식이 된다. 가장 기초가 되는 사실과 자료가 데이터라고 할 수 있다! 이제 데이터 분류에 대해서 생각해보자. 데이터를 나누려고 한다면 우리는 1. 데이터의 집합이 어떤 형태를 ..
2023.10.23 -
빅데이터 수학 기초론 문제풀이 week7
보호되어 있는 글입니다.
2023.10.22 -
빅데이터 수학 기초론 문제풀이 week6
보호되어 있는 글입니다.
2023.10.22