빅데이터란 무엇인가?

2023. 10. 21. 15:20R, 빅데이터 분석 실험

자연스럽게 만들어지는 데이터, 의도하지않고 쌓이는 데이터!

  1. 무의식중에 쌓인다.
  2. 매우 많다. -> 중심 극한 정리 -> 모집단에서의 모수을 짐작

빅데이터의 4가지 특성

속도(빠르게 모이고), 정확성(불확실성이 내재되어있고), 규모(크기가 매우 크며), 다양성(데이터의 형태가 다양하다.)

 

빅데이터가 왜 필요할까?

미래 결과를 예측할 수 있다.

- 고객 패턴 예측을 할 수 있고 데이터 자체가 돈이 된다.

 

유튜브 회사 실적의 가장 큰 비율은 광고.

광고로만 돈버는데 왜 유튜브하지 ? 불안정한데

-> ai 통해서 데이터로 바꿀 있다.

 

빅데이터가 어떤 변화를 가져왔는가?

빅데이터 이전 데이터를 분석하는 방법은 통계학 밖에 없었다. 하지만 적은 데이터를 사용했기때문에 중요성이 부각되지않았다.

그리고 통계학마저도 작은 데이터를 다루고 데이터도 얻기가 어려웠으며 이러한 이유로 모수 추정이 어려웠다.

즉 활용도가 지금만큼 좋지않았다.

하지만 데이터가 커지면서  큰 데이터를 기반으로 응용할 수 있는 기법들이나 데이터가 커질수록 강력해지는 기법들이 연구되기 시작했다.

 

빅데이터 분석에서 해결해야할 문제들

1. 매우 큰 양 

-> 처리하는데 너무 많은 시간이 걸린다. 분석을 하는데 시간이 걸려서 사용해야할 시기에 사용하지 못할 수 있다.(주식 시장 예측)

2. 고차원

-> 너무 많은 변수가 있는데 이중 실제 문제에 영향을 주는 변수가 무엇인지 알기가 어렵다.

3. 관찰 연구 데이터

-> 어떤 행동을 했을 때 행동의 결과로 데이터가 쌓이는데 행동을 하지 않을때의 결과를 모른다. 예시로 결제 기록을 보고

구매자들에 대한 어떠한 정보를 만들 수 있어도 구매하지않은 사람들에 대해서는 정보를 만들 수 없다.

4. 서로 다른 데이터 형태

-> 어떤 데이터는 날짜가 기록되어있고 어떤 데이터는 날짜가 기록안되어있고 데이터 마다 형태가 다를 수 있다.

 

이러한 문제로 기존 통계학 기법만으로는 이를 분석하기가 어렵다.

 

앞으로의 학습에서 가져야할 관점.

어떠한 변수가 있을 때 그 변수는 어떠한 분포에서 튀어나온 데이터라고 데이터를 바라보자.

3이라는 수치를 보고 이것을 고정된 변수로 보는게 아니라 어떤 확률분포에서 어떠한 확률로 나온 3이라고 생각하자.