분류 전체보기(107)
-
method to find β of logistic regression anlysis
이전 해당 식이 최대가 될 때가 모든 관측된 식을 가장 대표하는 확률 p임을 알았다. 우리는 해당 식에서 p 대신 β를 움직여 모든 관측된 식을 가장 잘 대표하는 β를 찾을 것이다. 위의 식을 변형해 더 쉬운 문제로 바꾸자. 식에 log를 곱하여 식을 더 쉽게 만들자. 그리고 - 를 곱하여 최소가 되는 β찾기로 문제를 바꾸자. -logL(b) 는 아래의 식이 된다. -log를 곱하면서 최소가 되는 β를 찾으면 된다. 최소값을 찾기위해 각 b에 대해 편미분하여 0이되는 구간을 찾는다. 컴퓨터로 b를 작은 값부터 대입해보면서 해당 식을 계산할 수 있다.
2023.10.22 -
[R] 로지스틱 회귀 분석 실습
우리는 앞서 로지스틱 회귀에 대해서 알아보았다. 종속변수가 이산적인 상황에서 선형회귀를 사용하면 안된다는 것을 알았다. 실습을 위해 admission 이라는 데이터를 가져왔다. 학점(GPA), 시험 성적(GRE) , 학교 평판(RNAK) 에 따른 합격 여부(ADMIT)이 있는 데이터이다. 합격 여부는 이산적인 변수인데 합격 여부에 대한 선형 회귀 분석 lm을 시행하면 어떻게 될까? setwd('/Users/bagjeong-yong/desktop/bigdataA/data') admission
2023.10.22 -
빅데이터 수학 기초론 문제풀이 week7
보호되어 있는 글입니다.
2023.10.22 -
빅데이터 수학 기초론 문제풀이 week6
보호되어 있는 글입니다.
2023.10.22 -
로지스틱 회귀 분석
방금까지는 종속 변수가 연속적인 값이었다. 각각의 독립변수와 종속변수의 관계식을 만들고 해당 관계식에 독립변수의 값을 넣는다면? 종속변수가 몇일지 예측할 수 있었다. '주식의 시가가 60000원이고 최고가가 70000원이었으니 주식의 종가가 71230원일 것이다'처럼 예측할 수 있었다. 하지만 시험 점수에 따른 불합격 여부를 예측하라고 한다면 이러한 선형 회귀가 예측할 수 있을까? 종속 변수는 1(합격), 0(불합격) 뿐이다. 답은 절대로 사용하면 안된다. why? 선형 회귀 모델은 확률을 예측하도록 설계된 모델이 아니라 값을 예측하도록 설계된 모델이기 때문이다. 가능한 결과 값(종속 변수)의 값이 (-INF, INF) 이다. 따라서 가능한 결과값이 (0, 1) 사이가 되도록 모델을 설계해야한다. 베르누..
2023.10.21 -
[R] online updating problem
기존의 값으로 선형 회귀 분석을 끝냈다. 하지만 빅데이터는 계속 쌓이는데 이걸 실시간으로 업데이트 할 수는 없는걸까? 가능하다! 이전 massive data problem을 풀며 X^tX , X^ty 를 모아 한번에 계산하면 분할해서 합치는 것이나 한번에 하는것이나 동일함을 알아보았다. A와 B 행렬을 정의하고 해당 행렬에 각각 X^tX , X^ty 모아둔다. 그후 기존에 A,B 와 new X^tX , X^ty 를 각각 더한다. A,B 로 다시 선형회귀를 진행하면 된다. 예시로 주식에 대해 생각해보자 1년동안 주식 데이터를 모아 이를 통해 선형 회귀 분석을 하고 1년주기로 A와 B행렬을 업데이트하며 다시 분석하면 된다. install.packages("quantmod") library(quantmod) ..
2023.10.21