R, 빅데이터 분석 실험(15)
-
코드 정리
보호되어 있는 글입니다.
2023.10.25 -
[R] logistic regression anlysis of mass data
이전 admission 데이터에 대해 glm 으로 구하는 것이 아닌 log.likelihode 와 optim으로 직접 구해보자. setwd('/Users/bagjeong-yong/desktop/bigdataA/data') admission
2023.10.23 -
high dimensional data
이건 애초에 못푼다. 미지수가 n개가 있을때 적어도 n개의 식이 있어야 풀린다. 하지만 미지수의 개수가 무수히 많은 것이고 식이 부족한 상황인 것이다. 완전하게는 아니지만 어떻게 풀 수 있을까? 이 글은 이 의문을 해소할 것이다. 먼저 실생활에서 이러한 문제가 무엇이 있을까? (데이터보다 독립 변수가 많은 경우) -> 유전자 분석. 받는 사람은 적은데 유전자의 개수가 많음 실제 OLS(기존 최소 제곱법 : 선형 회귀 분석)으로 접근했을 때 무슨 문제가 발생할까? 결론으로 β를 찾기 위해 (X^tX)^-1X^ty 를 계산해야하는데 이 식이 오는게 X^tXβ = X^ty 에서 좌항에 역행렬을 곱하는 것이다. 그런데 X^tX가 역행렬이 존재해야 이 연산을 할 수 있다. p가 n 보다 작을때는 서로 다른점이라고..
2023.10.23 -
logistic regression anlyasis of massive data
logistic regression analosis of massive data 테일러 급수를 사용하여 loglikelihood를 approximate 한다.(테일러 급수에 대한 설명은 수치해석학 카테고리에 있는 글에서 자세히 설명했다.) 기존의 테일러 급수와 다른건 행렬이기 때문에 다변량 테일러 급수로 근사해야한다. 다변량 테일러 급수는 다차원의 변수가 들어와도 1차원의 선형 함수로 근사해준다. 식을 분석해 다차원 변수가 들어와도 1차원 선형 함수가 됨을 이해해보자. input에 해당하는 x는 우리의 예제에선 β이다. 또 β는 데이터셋이 N*P 행렬이라는 가정에서 종속변수 하나 빼고 intercept 넣어져서 p개 존재한다. 따라서 p*1차원이다. 테일러급수는 a는 근사하는 지점인데 x가 p차원인데 a..
2023.10.23 -
method to find β of logistic regression anlysis
이전 해당 식이 최대가 될 때가 모든 관측된 식을 가장 대표하는 확률 p임을 알았다. 우리는 해당 식에서 p 대신 β를 움직여 모든 관측된 식을 가장 잘 대표하는 β를 찾을 것이다. 위의 식을 변형해 더 쉬운 문제로 바꾸자. 식에 log를 곱하여 식을 더 쉽게 만들자. 그리고 - 를 곱하여 최소가 되는 β찾기로 문제를 바꾸자. -logL(b) 는 아래의 식이 된다. -log를 곱하면서 최소가 되는 β를 찾으면 된다. 최소값을 찾기위해 각 b에 대해 편미분하여 0이되는 구간을 찾는다. 컴퓨터로 b를 작은 값부터 대입해보면서 해당 식을 계산할 수 있다.
2023.10.22 -
[R] 로지스틱 회귀 분석 실습
우리는 앞서 로지스틱 회귀에 대해서 알아보았다. 종속변수가 이산적인 상황에서 선형회귀를 사용하면 안된다는 것을 알았다. 실습을 위해 admission 이라는 데이터를 가져왔다. 학점(GPA), 시험 성적(GRE) , 학교 평판(RNAK) 에 따른 합격 여부(ADMIT)이 있는 데이터이다. 합격 여부는 이산적인 변수인데 합격 여부에 대한 선형 회귀 분석 lm을 시행하면 어떻게 될까? setwd('/Users/bagjeong-yong/desktop/bigdataA/data') admission
2023.10.22