Programming/Computer Science Fundamentals

[빅데이터의 이해] 2. 빅데이터의 정의2

Sujin Lee (Daisy) 2021. 9. 9. 23:00

 

1. 빅데이터의 3V 

 - 1) 규모 (Volume), 2) 다양성 (Variety), 3) 속도 (Velocity)

 - 때로는 '4) 가치(Value)'까지 포함해서 4V라고 부르기도 함. 

   ㄴ 여기서 '가치'란, 가치를 가지고 있다라기보다, '가치를 가진 데이터를 찾기가 힘들다'라는 뜻. 

 

2. 데이터 단위

 - 빅데이터 시대에는 '페타바이트(PB, Petabyte, 10^15)' 단위부터 사용함. 

 - PB (Petabyte) : 10^15 (1,000조)

   EB (Exabyte) : 10^18 (100경)

   ZB (Zettabyte) : 10^21 (10해)

   YB (Yottabyte) : 10^24 (1자) 

   요타 바이트보다 더 큰 공식적인 단위는 없다. 

 

3. 정형 데이터와 비정형 데이터 

 1) 정형 데이터 

    - 데이터베이스에 담을 수 있는 데이터. ex) 엑셀에 저장된 숫자. 

 2) 비정형 데이터

    - 다른 말로 file. ex) 비디오, mp3 파일 등. 

    - 웹 로그 등. 

   

4. 협의와 광의의 빅데이터

 1) 협의의 빅데이터 : 정형 데이터 + 비정형 데이터

    - 데이터의 3V(Volume, Variety, Velocity) 세 차원을 종합 

 2) 광의의 빅데이터 : 정형 데이터 + 비정형 데이터 + 데이터 관리/분석 인력과 조직 + 데이터 관리/분석 관련 기술 

    ㄴ 즉, 기존의 기술/인력/조직으로서는 다룰 수 없는 데이터 환경이 '빅데이터'이다. 

 

5. 데이터 과학

 - 통계학 + 해킹 기술 + 전문지식. 

   ㄴ 해킹기술 : 데이터 가져오려고....

 

6. 데이터 과학자의 필요역량 

 - 비즈니스에 대해 우선 이해하고, 컴퓨터 프로그래밍, 통계학은 물론 결과를 설득할 수 있는 대화능력을 가져야함

 1) 하드스킬

   - 빅데이터를 처리하고 분석하는데 필요한 이론적/기술적 지식.

   - 데이터베이스, 프로그래밍, 통계학, 데이터마이닝, 텍스트 마이닝 등

 2) 소프트스킬 

   - 통찰력 : 빅데이터에서 있는 가치를 발견할 수 있는 통찰력

   - 전달능력 : 스토리텔링, 시각화 등

   - 소통/협력 능력 : 다른 분야 전문가와 소통/협력할 수 있는 능력 

 

 

 

 

반응형