분류 전체보기(107)
-
massive data는 어떻게 선형회귀분석을 적용할까?
massive data는 행이 많은 상태. (너무 많아서 저장이 불가능한 정도라고 가정하자) 이떄 우리는 분할 정복 알고리즘을 통해 이를 해결할 수 있다. 1. 10년치 데이터 있다고 치면 1년단위로 데이터를 쪼게서 저장한다. 2. 1년치 데이터를 계산한다. 3. 결과를 합한다. 여기서 가장 중요한 점은 이렇게 구한 결과가 나누기 전과 동일하도록 보장시켜야한다는 것이다. 이전 선형회귀에 대한 글을 생각해보자 (Xibi-yi)^2 를 모두 더한걸 우리는 미분했었다. 그래서 편미분의 결과로 나오는 p*1 행렬은 -2X^t(Xb-y) 를 통해 구했다. 그래도 결과로 나오는 행렬의 크기는 p*1 이다. y = a0 + xa1 꼴을 생각해보자 식이 n개 있다면 결과로 나오는 행렬은 아래와 같다. 1항 : 2(a..
2023.10.21 -
linear regression analysis
시카고 공항 결항 문제. 날씨가 너무 자주 바뀐다. 날씨에 관한 데이터를 받아 날씨를 예측하려 한다. 하지만 데이터가 너무 많아서 1년치씩 받아야했다. sample size가 매우 클때 어떻게 해야하는가? 이 문제를 해결하기전에 linear regression anlysis에 대해 알아보자. linear regression anlysis 종속 변수와 독립 변수가 선형적인 관계를 가진다고 가정하여 종속변수를 예측하거나 각 독립변수가 얼마나 영향을 주는지 β를 구할 수 있다. 2차원에서 이를 생각해보자 yi =β0 +β1xi1 +εi xi와 yi 에 대해 선형 방정식을 세울 수 있다. xi가 2개일 때 3차원 상에서 이렇게 최적의 1차 다항식을 구할 수 있다. OLS(ordinary least squares..
2023.10.21 -
[R] lm함수를 통한 선형 회귀, 분할 정복을 통한 선형 회귀
1. lm 함수로 구하기 setwd('/Users/bagjeong-yong/desktop/bigdataA/data') data1
2023.10.21 -
[R] 기본 문법 및 주요 함수
1. 열 벡터 정의 밑 참조 a
2023.10.21 -
빅데이터 문제 해결 방법
massive data challenge - dataframe에서 행이 많은 경우 - 데이터 처리 시간 줄이기 해결 방법 : 1. 데이터를 실시간으로 업데이트한다. 2. 예를 들어 10년치 데이터라면 1개월씩 쪼개서 결과를 누적시킨다. high-dimensional data challenge - dataframe에서 열이 많은 경우 (독립 변수) 우리는 반응 변수에 대해 어떠한 독립 변수가 영향을 주는지 분석하는 회귀 분석을 진행할 것인데 이를 위해선 열의 개수가 행의 개수보다 적어야한다. 해결 방법: 1. 독립 변수를 평가해 최적의 subset을 선택한다. (BIC , EBIC) 2. 패널티를 줘서 b가 0이 되도록 만든다. (lasso) 3. 독립 변수가 매우 많아지면 독립 변수들간에 연관성이 생겨 ..
2023.10.21 -
빅데이터 기초 지식
data frame 행 -> subject 열 -> 독립 변수 normal distribution -> 연속적인 양 음 실수. 평균을 그리면 가운데 poisson distribution -> 0을 포함하는 양에 정수(k는 이산 데이터) -> 단위 시간당 평균 사건 발생 r, 사건의 수 k -> 사건이 동일한 간격으로 발생한다는 가정. (만약 특정시간에 사건이 몰려 발생한다면 포아송 분포를 적용할 수 없음.) -> 특정시간에 버스가 1대 올 확률, 2대 올 확률 , 3대 올 확률 푸아송 분포, 직관적으로 이해하기 danbi-ncsoft.github.io binomial distribution -> 베르누이 시행(true or farse, 확률이 고정)을 n번하고 성공한 확률 -> 이산 데이터
2023.10.21