2023. 10. 21. 17:31ㆍR, 빅데이터 분석 실험
massive data challenge
- dataframe에서 행이 많은 경우
- 데이터 처리 시간 줄이기
해결 방법 :
1. 데이터를 실시간으로 업데이트한다.
2. 예를 들어 10년치 데이터라면 1개월씩 쪼개서 결과를 누적시킨다.
high-dimensional data challenge
- dataframe에서 열이 많은 경우 (독립 변수)
우리는 반응 변수에 대해 어떠한 독립 변수가 영향을 주는지 분석하는 회귀 분석을 진행할 것인데
이를 위해선 열의 개수가 행의 개수보다 적어야한다.
해결 방법:
1. 독립 변수를 평가해 최적의 subset을 선택한다. (BIC , EBIC)
2. 패널티를 줘서 b가 0이 되도록 만든다. (lasso)
3. 독립 변수가 매우 많아지면 독립 변수들간에 연관성이 생겨 비슷하거나 같은 변수가 생길 수 있다. 이러한 변수를 합치자.
observation study data challenge
- 전통적인 방식은 동일한 집단을 나눠 대조시켜 결과를 비교하는 방식.
ex) 혈압이 높은 군에서 두 그룹으로 나눠서 A는 운동을 시키고 B는 운동을 금지해 회복 속도를 연구
- 집단을 나누지 않고 그냥 얻은 데이터.
해결 방법
1. 집단간의 차이를 측정하고 이 차이를 반영시킨다.
heterogeneous data challenge
1. 변수가 따르는 분포가 계속 바뀌는 문제.
2. 형식이 다름.
해결 방법
1. 어제와 오늘의 차이를 뺸 상태의 통계를 구하는 등 전처리하는 과정을 가진다.
observation study data challenge와 heterogeneous data challenge는 추후 정보를 추가할 예정
'R, 빅데이터 분석 실험' 카테고리의 다른 글
linear regression analysis (1) | 2023.10.21 |
---|---|
[R] lm함수를 통한 선형 회귀, 분할 정복을 통한 선형 회귀 (0) | 2023.10.21 |
[R] 기본 문법 및 주요 함수 (1) | 2023.10.21 |
빅데이터 기초 지식 (1) | 2023.10.21 |
빅데이터란 무엇인가? (1) | 2023.10.21 |