본문 바로가기
데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터분석 준전문가] 빅데이터의이해 (빅데이터의 정의, 7V, 가트너 그룹 더그래니, Veracity와 Validity 의 차이, 빅데이터의 기능, 본질적인 변화)

by 깜장스 2022. 2. 6.
반응형

지금부터는 빅데이터의이해에 대해 공부를 시작해 보겠다.

 

 

============================================================================

 

1. 빅데이터의 정의 ( 7V )

 

- 가트너 그룹 더그래니가 언급한 빅데이터의 정의 : Volume, Variety, Velocity

 

규모 (Volume) - 미디어나 위치정보, 동영상 등과 같이 다루어야 할 데이터의 크기

- 물리적인 크기 뿐만 아니라 현재의 기술로 처리 가능한지에 따라 빅데이터를 판단함.
다양성 (Variety) - 다양한 종류의 데이터를 수용하는 속성.

- 빅데이터는 정형데이터 뿐만 아니라다양한 비정형 데이터도 생성함.
속도 (Velocity) - 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성.
진실성 or 신뢰성
(Veracity)
- 빅데이터셋이 얼마나 신뢰할 수 있는 지를 의미.
정확성 (Validity) - 데이터가 타당한지, 정확한지의 여부를 결정
휘발성 (Volatility) - 몇 년만 지나면 의미가 없어지는 유형의 데이터이거나 오래 저장하기 힘들다면

  빅데이터로서의 활용성을 점검해야 함.
가치 (Value) - 유용한 가치를 이끌어낼 수 있어야 의미가 있음.

 

※ Veracity와 Validity 의 차이

 

ex) 개 사진 DB에서 개와 고양이 사진에 기술적 결함으로 생겨난 인공적인 노이즈가 많다면 Veracity가 없는 것이고

개와 고양이의 Labeling이 잘못된 것이면 Validity가 없는 것이다.

 

2. 빅데이터의 기능.

산업혁명의 석탄, 철 빅데이터는 산업혁명에서 석탄과 철의 역할을 차세대 산업혁명에서

해낼것이라고 기대하는 것.
원유 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써

산업 전반의 생산성을 한단계 향살시킬 것으로 기대됨.
렌즈  현미경이 생물학 발전에 미쳤던 영향만큼 나아가 데이터가 산업 전반에 영향을 미칠 것으로 기대.
플랫폼 공동활용의 목적으로 구축된 유/무형의 구조물 로써의 다양한 서드파티 비지니스에 활용을 기대.

※ 서드파티(third party)

광의로는 해당 분야에 관련된 상품을 출시하거나 다른 기업의 주 기술을 이용한

 

파생 상품 따위를 생산하는 회사를 가리킴.

 

주 기술을 보유한 대기업들이 중심 기술을 연구하는 것이 아닌 소규모의 개발자들이 주어진 규격에 맞추어

 

제품을 생산하는 것이다.

 

3. 빅데이터가 만들어내는 본질적인 변화

 

사전처리 → 사후처리 필요한 정보만 수집하는 시대에서 많은 데이터를 수집 그리고 조합하여 숨은 정보를 찾아냄.
표본조사 → 전수조사 전수조사로 표본조사가 주지 못하는 패턴이나 정보를 제공해 줌.
질 → 양 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는

경향이 늘어나기 때문.
인과관계 → 상관관계 데이터를 얻는데 드는 비용이 매우 비쌋던 시대의 모델인 인과관계 분석 방법에서 상관관계

분석만으로 충분한 경우가 발생함.

 

 

============================================================================

반응형