분류 전체보기(100)
-
linear regression analysis
시카고 공항 결항 문제. 날씨가 너무 자주 바뀐다. 날씨에 관한 데이터를 받아 날씨를 예측하려 한다. 하지만 데이터가 너무 많아서 1년치씩 받아야했다. sample size가 매우 클때 어떻게 해야하는가? 이 문제를 해결하기전에 linear regression anlysis에 대해 알아보자. linear regression anlysis 종속 변수와 독립 변수가 선형적인 관계를 가진다고 가정하여 종속변수를 예측하거나 각 독립변수가 얼마나 영향을 주는지 β를 구할 수 있다. 2차원에서 이를 생각해보자 yi =β0 +β1xi1 +εi xi와 yi 에 대해 선형 방정식을 세울 수 있다. xi가 2개일 때 3차원 상에서 이렇게 최적의 1차 다항식을 구할 수 있다. OLS(ordinary least squares..
2023.10.21 -
[R] lm함수를 통한 선형 회귀, 분할 정복을 통한 선형 회귀
1. lm 함수로 구하기 setwd('/Users/bagjeong-yong/desktop/bigdataA/data') data1
2023.10.21 -
[R] 기본 문법 및 주요 함수
1. 열 벡터 정의 밑 참조 a
2023.10.21 -
빅데이터 문제 해결 방법
massive data challenge - dataframe에서 행이 많은 경우 - 데이터 처리 시간 줄이기 해결 방법 : 1. 데이터를 실시간으로 업데이트한다. 2. 예를 들어 10년치 데이터라면 1개월씩 쪼개서 결과를 누적시킨다. high-dimensional data challenge - dataframe에서 열이 많은 경우 (독립 변수) 우리는 반응 변수에 대해 어떠한 독립 변수가 영향을 주는지 분석하는 회귀 분석을 진행할 것인데 이를 위해선 열의 개수가 행의 개수보다 적어야한다. 해결 방법: 1. 독립 변수를 평가해 최적의 subset을 선택한다. (BIC , EBIC) 2. 패널티를 줘서 b가 0이 되도록 만든다. (lasso) 3. 독립 변수가 매우 많아지면 독립 변수들간에 연관성이 생겨 ..
2023.10.21 -
빅데이터 기초 지식
data frame 행 -> subject 열 -> 독립 변수 normal distribution -> 연속적인 양 음 실수. 평균을 그리면 가운데 poisson distribution -> 0을 포함하는 양에 정수(k는 이산 데이터) -> 단위 시간당 평균 사건 발생 r, 사건의 수 k -> 사건이 동일한 간격으로 발생한다는 가정. (만약 특정시간에 사건이 몰려 발생한다면 포아송 분포를 적용할 수 없음.) -> 특정시간에 버스가 1대 올 확률, 2대 올 확률 , 3대 올 확률 푸아송 분포, 직관적으로 이해하기 danbi-ncsoft.github.io binomial distribution -> 베르누이 시행(true or farse, 확률이 고정)을 n번하고 성공한 확률 -> 이산 데이터
2023.10.21 -
빅데이터란 무엇인가?
자연스럽게 만들어지는 데이터, 의도하지않고 쌓이는 데이터! 무의식중에 쌓인다. 매우 많다. -> 중심 극한 정리 -> 모집단에서의 모수을 짐작 빅데이터의 4가지 특성 속도(빠르게 모이고), 정확성(불확실성이 내재되어있고), 규모(크기가 매우 크며), 다양성(데이터의 형태가 다양하다.) 빅데이터가 왜 필요할까? 미래 결과를 예측할 수 있다. - 고객 패턴 예측을 할 수 있고 데이터 자체가 돈이 된다. 유튜브 회사 실적의 가장 큰 비율은 광고. 광고로만 돈버는데 왜 유튜브하지 ? 불안정한데 -> ai를 통해서 데이터로 바꿀 수 있다. 빅데이터가 어떤 변화를 가져왔는가? 빅데이터 이전 데이터를 분석하는 방법은 통계학 밖에 없었다. 하지만 적은 데이터를 사용했기때문에 중요성이 부각되지않았다. 그리고 통계학마저도..
2023.10.21