빅데이터 문제 해결 방법

2023. 10. 21. 17:31R, 빅데이터 분석 실험

massive data challenge

- dataframe에서 행이 많은 경우

- 데이터 처리 시간 줄이기

 

해결 방법 :

1. 데이터를 실시간으로 업데이트한다.

2. 예를 들어 10년치 데이터라면 1개월씩 쪼개서 결과를 누적시킨다.

 

 

high-dimensional data challenge

- dataframe에서 열이 많은 경우 (독립 변수)

우리는 반응 변수에 대해 어떠한 독립 변수가 영향을 주는지 분석하는 회귀 분석을 진행할 것인데

이를 위해선 열의 개수가 행의 개수보다 적어야한다.

 

해결 방법:

1. 독립 변수를 평가해 최적의 subset을 선택한다. (BIC , EBIC)

2. 패널티를 줘서 b가 0이 되도록 만든다. (lasso)

3. 독립 변수가 매우 많아지면 독립 변수들간에 연관성이 생겨 비슷하거나 같은 변수가 생길 수 있다. 이러한 변수를 합치자.

 

observation study data challenge

- 전통적인 방식은 동일한 집단을 나눠 대조시켜 결과를 비교하는 방식.

ex) 혈압이 높은 군에서  그룹으로 나눠서 A는 운동을 시키고 B 운동을 금지해 회복 속도를 연구

- 집단을 나누지 않고 그냥 얻은 데이터.

 

해결 방법

1. 집단간의 차이를 측정하고 이 차이를 반영시킨다.

 

heterogeneous data challenge

1. 변수가 따르는 분포가 계속 바뀌는 문제.

2. 형식이 다름.

 

해결 방법

1. 어제와 오늘의 차이를 뺸 상태의 통계를 구하는 등 전처리하는 과정을 가진다.

 

observation study data challenge와 heterogeneous data challenge는 추후 정보를 추가할 예정