본문 바로가기

NEWS/Word

[초보mp의 열공 리포트]빅 데이터의 정의

요즘 최고의 화두는 뭐니뭐니해도 빅 데이터라고 할 수 있습니다.

흔히 쉽게들 쓰고 있는 빅 데이터는 정확하게 무엇일까요?

빅 데이터의 정의에 대해 잘 정리된 글이 있어 스크랩해 보았습니다.

 

빅 데이터의 정의

빅 데이터는 어떻게 정의할 수 있을까?

사실 빅 데이터에 대해서 구체적이고 정량적인 정의가 합의된 바는 없다.

세계적인 컨설팅 기관인  맥킨지 앤드 컴퍼니 [McKinsey & Company] 2011 5월에 발간한 보고서

'Big Data : The Next Frontier for Innovation, Competition, and Productivity'에서 "빅 데이터의 정의는 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터셋(Dataset) 규모로, 그 정의는 주관적이며 앞으로도 계속 변화될 것이다. 또한 데이터량 기준에 대해 산업분야에 따라 상대적이며 현재 기준에서는 몇 십 테라바이트에서 수 페타바이트까지가 그 범위이다" 라고 설명한다.

빅 데이터의 종류

이렇게 데이터 단위의 관점에서 빅 데이터를 생각할 수도 있지만, 어떠한 종류의 데이터들이 빅 데이터를 구성하고 있는지 알아볼 필요도 있다. 빅 데이터의 데이터 종류는 정형화 정도에 따라 다음과 같이 분류된다.

정의

설명

정형(Structured)

고정된 필드에 저장된 데이터. 관계형 데이터베이스 및 스프레드시트 등을 예로 들 수 있다.

반정형(Semi-Structured)

고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML, 텍스트 등을 예로 들 수 있다.

비정형(Unstructured)

고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다.

이 중 비정형 데이터의 증가속도는 누구도 예측할 수 없는 정도이며, 비교적 선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이고 있다.

빅 데이터와 기존 데이터의 차이점

그렇다면 빅 데이터 처리는 기존 데이터 처리와 어떻게 다를까?

IT 시장조사기관 Gartner 2011 1월 발간한 보고서 'Big Data Analytics'에서 기존 데이터 처리와 빅 데이터 처리에 대해 다음과 같은 차이점을 설명했다.



■ 빠른 의사결정이 상대적으로 덜 요구된다

대용량 데이터에 기반한 분석 위주로 장기적, 전략적 접근이 필요하다.

따라서 기존의 데이터 처리에 요구되는 즉각적인 처리속도와는 달리, 즉각적인 의사결정이 상대적으로 덜 요구된다.



■ 처리(Processing) 복잡도가 높다

다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처리 복잡도가 매우 높다.

따라서 이를 해결하기 위해 통상적으로 분산 처리 기술이 필요하다.



■ 처리할 데이터양이 방대하다

클릭스트림(Clickstream) 데이터를 예로 들면, 고객 정보수집 및 분석을 장기간에 걸쳐 수행해야 하므로 기존 방법과 비교해 처리해야 할 데이터양은 방대하다.



■ 비정형 데이터의 비중이 높다

소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신 CDR 로그, 이마트 방문 차량 로그 등

비정형 데이터 파일의 비중이 매우 높다. 처리의 복잡성을 증대시키는 요인이기도 하다.



■ 처리/분석의 유연성이 높다

잘 정의된 데이터 모델/상관관계/절차 등이 없어 기존 데이터 처리방법에 비해 처리/분석의 유연성이 높은편이다.

또한, 새롭고 다양한 처리방법의 수용을 위해 유연성이 기본적으로 보장되어야 한다.



동시처리량(Throughput)이 낮다

대용량 및 복잡한 처리를 특징으로 하고 있어 동시에 처리가 필요한 데이터양은 낮다.

따라서 실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않다.

지금까지 빅 데이터란 무엇인지, 어떤 것들이 있는지 알아보았다.

 

빅 데이터 시대를 준비하는 시작

그런데 가장 중요한 것은 지금 현재 기업들에 저장되는 자료들을 분석 처리하여 쓸모있는 데이터로 만드는 것이 무엇보다 중요하다. 의미조차 확실치 않은 또는 아직은 빅 데이터를 이용한 기업 활동이 보편적인 형태가 아닌 지금은 빅 데이터를 생각하기 보단 지금 현재 기업들에 쌓이고 있는 데이터들을 분석 가공하여 쓸모있는 데이터로 만드는 것이 빅 데이터 시대를 준비하는 시작이라고 볼 수 있겠다.

 

[출처] 씨엔정보통신 | 기술은 신뢰다
[원문] http://blog.naver.com/creemsn1/70131471397