R, 빅데이터 분석 실험(15)
-
빅데이터 문제 해결 방법
massive data challenge - dataframe에서 행이 많은 경우 - 데이터 처리 시간 줄이기 해결 방법 : 1. 데이터를 실시간으로 업데이트한다. 2. 예를 들어 10년치 데이터라면 1개월씩 쪼개서 결과를 누적시킨다. high-dimensional data challenge - dataframe에서 열이 많은 경우 (독립 변수) 우리는 반응 변수에 대해 어떠한 독립 변수가 영향을 주는지 분석하는 회귀 분석을 진행할 것인데 이를 위해선 열의 개수가 행의 개수보다 적어야한다. 해결 방법: 1. 독립 변수를 평가해 최적의 subset을 선택한다. (BIC , EBIC) 2. 패널티를 줘서 b가 0이 되도록 만든다. (lasso) 3. 독립 변수가 매우 많아지면 독립 변수들간에 연관성이 생겨 ..
2023.10.21 -
빅데이터 기초 지식
data frame 행 -> subject 열 -> 독립 변수 normal distribution -> 연속적인 양 음 실수. 평균을 그리면 가운데 poisson distribution -> 0을 포함하는 양에 정수(k는 이산 데이터) -> 단위 시간당 평균 사건 발생 r, 사건의 수 k -> 사건이 동일한 간격으로 발생한다는 가정. (만약 특정시간에 사건이 몰려 발생한다면 포아송 분포를 적용할 수 없음.) -> 특정시간에 버스가 1대 올 확률, 2대 올 확률 , 3대 올 확률 푸아송 분포, 직관적으로 이해하기 danbi-ncsoft.github.io binomial distribution -> 베르누이 시행(true or farse, 확률이 고정)을 n번하고 성공한 확률 -> 이산 데이터
2023.10.21 -
빅데이터란 무엇인가?
자연스럽게 만들어지는 데이터, 의도하지않고 쌓이는 데이터! 무의식중에 쌓인다. 매우 많다. -> 중심 극한 정리 -> 모집단에서의 모수을 짐작 빅데이터의 4가지 특성 속도(빠르게 모이고), 정확성(불확실성이 내재되어있고), 규모(크기가 매우 크며), 다양성(데이터의 형태가 다양하다.) 빅데이터가 왜 필요할까? 미래 결과를 예측할 수 있다. - 고객 패턴 예측을 할 수 있고 데이터 자체가 돈이 된다. 유튜브 회사 실적의 가장 큰 비율은 광고. 광고로만 돈버는데 왜 유튜브하지 ? 불안정한데 -> ai를 통해서 데이터로 바꿀 수 있다. 빅데이터가 어떤 변화를 가져왔는가? 빅데이터 이전 데이터를 분석하는 방법은 통계학 밖에 없었다. 하지만 적은 데이터를 사용했기때문에 중요성이 부각되지않았다. 그리고 통계학마저도..
2023.10.21