분류 전체보기(107)
-
정보학
차원의 저주 ex1 ) 분류 문제 각 영역을 분류하는 문제인데 어떻게 분류되는지 이해할 수 없음 1차원에서 3등분을 나누면 그냥 3등분이 나눠지는건데 이차원에선 3등분하면 9개의 공간이 나오고 3차원에서 3등분하면 27개의 공간이 나옴. 맘대로 나누지 못함. ex2) point간 거리 차원이 높아질수록 가장 가까운 곳과 먼 곳의 거리가 0에 수렴하게 됨. ex3) cosine similarity 두 벡터간 유사도를 구하는 방법으로 내적과 벡터의 크기를 나누는 방법이다. 해당 기법을 사용하면 [-1,1] 구간의 값이 나온다. 직교일때 0 (cos π/2 = 0), 벡터의 각도에 의존한다는 특징이 있는 기법이다. 차원이 높아질수록 이 기법을 사용할 때 차원이 높아질수록 벡터간의 유사성이 사라져간다. ex4)..
2023.10.24 -
빅데이터 선형대수학
일단 생소할 수 있는 부분에 대해서만 다루겠다. 1. Graph or relation 각 점이 있을 때 행렬로 그래프를 나타낼 수 있다. 또 각 정점에 대한 간선을 생각해서 결합행렬을 정의할 수 있다. 2. incidence matrix 각 정점을 보자. 1번 간선과 2번 간선은 1번 정점에나 나가는 간선이고 4번 간선은 1번 정점으로 들어오는 간선이다. Aij에서 i가 1일 때 1번 정점으로부터 출발된 간선을 -1, 나간 간선을 1 , 없는 간선을 0을 줘서 1행을 구성할 수 있다. 3. inner production 로 표시하고 a^tb 를 시행하는 것이다. (열벡터 가정) = ||a||||b||cosθ θ = / ||a||||b|| cos^-1θ 추후 cosine distance 에 쓰일 수 있다...
2023.10.23 -
데이터
데이터를 이해하기 위해 DIKW pyramid를 살펴보자. DIKW pyramid는 데이터가 정보가 되고, 정보가 지식이 되고, 지식이 지혜가 됨을 나타낸다. 예시를 들면 '집앞 신호등은 빨간 불이다.' 는 데이터가 아니다. '집앞 신호등은 빨간 불이다.' 는 정보에 해당이 되고 이 정보에 근간이 되는 자료, 즉 좌표와 색이 이 정보를 이루는 데이터가 된다. 그리고 '집앞 신호등은 빨간 불이다.' 를 통해 도출한 것, '내가 건너려는 신호는 빨간불이다.' 는 지식이고 이것을 바탕으로 내는 결과 '멈추는게 좋겠다.' 가 최종적으로 지식이 된다. 가장 기초가 되는 사실과 자료가 데이터라고 할 수 있다! 이제 데이터 분류에 대해서 생각해보자. 데이터를 나누려고 한다면 우리는 1. 데이터의 집합이 어떤 형태를 ..
2023.10.23 -
[R] logistic regression anlysis of mass data
이전 admission 데이터에 대해 glm 으로 구하는 것이 아닌 log.likelihode 와 optim으로 직접 구해보자. setwd('/Users/bagjeong-yong/desktop/bigdataA/data') admission
2023.10.23 -
high dimensional data
이건 애초에 못푼다. 미지수가 n개가 있을때 적어도 n개의 식이 있어야 풀린다. 하지만 미지수의 개수가 무수히 많은 것이고 식이 부족한 상황인 것이다. 완전하게는 아니지만 어떻게 풀 수 있을까? 이 글은 이 의문을 해소할 것이다. 먼저 실생활에서 이러한 문제가 무엇이 있을까? (데이터보다 독립 변수가 많은 경우) -> 유전자 분석. 받는 사람은 적은데 유전자의 개수가 많음 실제 OLS(기존 최소 제곱법 : 선형 회귀 분석)으로 접근했을 때 무슨 문제가 발생할까? 결론으로 β를 찾기 위해 (X^tX)^-1X^ty 를 계산해야하는데 이 식이 오는게 X^tXβ = X^ty 에서 좌항에 역행렬을 곱하는 것이다. 그런데 X^tX가 역행렬이 존재해야 이 연산을 할 수 있다. p가 n 보다 작을때는 서로 다른점이라고..
2023.10.23 -
logistic regression anlyasis of massive data
logistic regression analosis of massive data 테일러 급수를 사용하여 loglikelihood를 approximate 한다.(테일러 급수에 대한 설명은 수치해석학 카테고리에 있는 글에서 자세히 설명했다.) 기존의 테일러 급수와 다른건 행렬이기 때문에 다변량 테일러 급수로 근사해야한다. 다변량 테일러 급수는 다차원의 변수가 들어와도 1차원의 선형 함수로 근사해준다. 식을 분석해 다차원 변수가 들어와도 1차원 선형 함수가 됨을 이해해보자. input에 해당하는 x는 우리의 예제에선 β이다. 또 β는 데이터셋이 N*P 행렬이라는 가정에서 종속변수 하나 빼고 intercept 넣어져서 p개 존재한다. 따라서 p*1차원이다. 테일러급수는 a는 근사하는 지점인데 x가 p차원인데 a..
2023.10.23