블로그 이미지
mplanners
For better value

calendar

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

Notice

'빅 데이터'에 해당되는 글 2

  1. 2013.08.09 '빅 데이터' 세계를 꿰뚫다
  2. 2012.07.31 [초보mp의 열공 리포트]빅 데이터의 정의
2013.08.09 13:37 NEWS/Clip

 

빅 데이터가 빅 이슈다. 스마트폰과 소셜 미디어에 이어 빅 데이터 열풍이다. 하루가 멀다 하고 빅 데이터 관련 포럼이 열리고 매일 빅 데이터를 분석한 내용이 기사화된다. 서울시는 KT의 심야 통화 기록을 활용해 심야버스 노선을 확정했다. 현대카드는 커피전문점 결제 내용을 분석해 커피전문점이 서울에서는 포화 상태지만 지방에서는 확장 단계라는 결론을 이끌어냈다. 서울 강북삼성병원은 다음소프트와 함께 자살 예보 시스템을 구축했다. 서울대는 각 분야 교수들이 연합해 빅 데이터 센터를 만들었고, 국민대는 경영전문대학원(MBA)에 빅 데이터 경영 과정을 신설했다. 빅 데이터의 시대가 오고 있다.

빅 데이터의 시대

그렇다면 '빅 데이터(Big Data)란' 무엇인가. 구멍가게가 아니라 인터넷 쇼핑몰에서 물건을 사고, 선생님이 아니라 포털에서 궁금증을 해결하며, 심지어 자신의 의견 및 관심사도 친구보다 트위터나 유튜브로 발신하는 시대다. 거리 곳곳에는 CCTV가 설치되어 있다. 시민들의 생활 하나하나가 '디지털 흔적(자료)'으로 남고, 그 양과 종류가 폭증하는 것이다. 예를 들어 세계적 인터넷 포털 사이트인 구글이 하루에 처리하는 데이터 양이 24페타바이트(약 2400만 기가바이트)쯤이다. 이는 미국 의회도서관에 있는 전체 인쇄물의 수천 배에 달한다.

'디지털 데이터'의 폭증과 더불어 최근에는 이에 대한 분석기법까지 비약적으로 발전하면서 사회의 움직임을 더욱 정확하게 분석하고 예측할 수 있게 되었다. 이는 물론 데이터 저장비용이 감소하고 네트워크 연산속도가 빨라져서, 엄청난 규모의 다양한 데이터(빅 데이터)를 처리할 수 있기 때문이다. 이처럼 대규모 정보를 처리해서 정부나 기업에 의미 있는 정보를 찾아내는 '빅 데이터 기술'이 최근 국내에서도 성과를 내기 시작했다.

빅 데이터 연구자들은 두 데이터 사이의 인과성보다는 상관성을 중시한다. 상관성은 두 데이터 값 사이의 통계적 관련성을 수량화한 것이다. 상관성이 강하다는 것은 하나의 데이터 값이 변화할 때 다른 하나도 변할 가능성이 높다는 뜻이다.

 

대표 사례가 월마트에서 기저귀 매출과 맥주 매출이 비슷한 궤적을 그리는 현상이다. 남편들이 기저귀 심부름을 왔다가 맥주도 사간 것으로 추측할 수 있는데, 이런 '인과관계'가 맞는지보다 기저귀 매출이 오르면 맥주 매출도 오르는 상관관계에 주목한다. 빅 데이터 분석의 특징을 한마디로 말하면 '왜 그러는지는 잘 모르겠지만 앞으로 어떻게 될지 예측할 수 있다'는 것이다.

대선 한 달 전 빅 데이터 분석 전문기업 다음소프트의 송길영 부사장은 '기분이 나쁘면 경기도 나쁘다'는 '공포지수'가 주가 예측에 유용하다며, 자신의 책에 다음과 같이 예언했다. "대통령 선거 결과를 알고 싶다면 선거 1~2주 전에 코스피 지수를 보면 된다. 코스피 지수가 올라가면 여당이 이기고, 떨어지면 야당이 승리할 가능성이 높다." 실제 결과는 어땠을까? 11월19일에서 12월18일까지 코스피 지수는 1878.10에서 1993.09로 가파르게 상승했다. 그리고 여당 후보인 박근혜 대통령이 당선되었다. 주가지수와 박근혜 대통령 당선 사이에 인과관계가 있다고 확실히 말할 수는 없다. 하지만 미국 대선에서 계속 증명되어온 주가 그래프와 대선 결과의 상관성이 우리나라 선거에서도 어느 정도 드러난 셈이다.

빅 데이터와 관련해서 가장 각광받는 분야는 트위터ㆍ페이스북 같은 SNS에 사람들이 쏟아낸 말을 통해 사회적 분위기를 파악하는 '정서 분석(Sentiment Analysis)'이다. 일각에서는 SNS의 정서를 분석해 주가를 예측할 수 있다고 주장한다. 미국의 '텍스트 마이닝(대량의 정보에서 목적에 부합하는 의미 정보를 추출하는 방법)' 전문가들은 트위터에 표현된 정서를 계량화한 수치가 다우존스 지수를 87.6%의 정확도로 맞힌다는 것을 발견했다. 이를 바탕으로 자동 주식거래 시스템인 '더웬트 앱솔루트 리턴 펀드(Derwent Absolute Return Fund)'를 만들었다.

SNS 감성을 기반으로 주식 투자도

국내에서도 비슷한 시도가 있었다. 다음소프트의 '감성 기반 트레이딩 펀드'가 바로 그것이다. 지난해 다음소프트는 '최근 100일' 동안의 감성 데이터와 주식 데이터의 관계 분석을 기반으로 '주식 자동거래 프로그램'을 만들었다. 감성 데이터에서 주가가 오를 것으로 예상되면 자동으로 주식을 사고, 떨어질 것으로 보이면 주식을 파는 프로그램이다. 자본금 3000만원으로 시작한 이 펀드는 코스피 200 종목과 코스닥 10 종목 중 시민들의 감성에 영향을 받기 쉬운 것으로 추정되는 주식들을 거래 대상으로 삼았다. 이처럼 명확한 논리적 인과관계를 입증할 수는 없지만, 시차를 두고 나타나는 통계적 관련성을 찾는 것을 학계에서는 '그랜저 인과관계 분석'이라고 한다.

이 프로그램은 제법 성공적이었다. 2012년 8월6일부터 2012년 12월28일까지 약 150일 동안 거래했는데 코스피 지수가 6.1% 오르는 동안 다음소프트의 펀드는 9.7%의 수익률을 올렸다. 이 펀드의 수익률은 대통령 선거일인 12월18일까지는 13.1%였는데, 이후 10일 동안 크게 떨어져 9.7%로 마감되었다. 이는 감성 기반 프로그램이 대선 결과에 따른 대중의 급격한 심리변화를 제대로 반영하지 못했기 때문으로 보인다. 미국의 경우, 보통 현직 대통령이 재임에 성공한 경우 주식시장은 상승세를 보이고, 현직 대통령이 패하면 하락세를 보인다. 한국 주식시장 역시 대선 이후 1주일 정도 조정장을 거쳤는데, 일종의 '대선 멘붕(멘탈 붕괴)' 현상이 나타났음을 확인할 수 있다.

 

빅 데이터는 공공 영역에서 더욱 빛을 발한다. 일단 데이터가 많고 상업적 활용보다 데이터 활용에 대한 거부감이 적기 때문이다. 뉴욕 시는 오랫동안 맨홀 뚜껑이 폭발하는 사고 때문에 골치를 앓아왔다. 이에 미국의 통계학자 신시아 루딘은 뉴욕 시의 맨홀 5만1000개에 관련된 방대한 데이터로 예측 변수 106가지를 산출하고, 이를 바탕으로 터질 위험이 있는 맨홀을 예측했다. 그리고 이후 심각한 사고를 일으킨 맨홀의 44%가, 루딘이 지목한 '위험성 상위 10%'에 포함된 것으로 나타나 분석의 유용성이 입증되었다.

서울시도 뉴욕 시에 버금가는 빅 데이터 활용 행정을 시도하고 있다. 심야버스 노선을 확정하는 데 빅 데이터를 활용한 것이다. 발상은 간단했다. KT와 협조해 심야에 전화를 이용하는 사람들의 정보를 분석했다. 발신자 위치(출발지)와 번호 소유자의 주소지(도착지)를 연결하면 그가 심야에 이동해야 할 길이 나오기 때문이다. 이 데이터를 바탕으로 서울시는 기존 2개 심야버스 노선을 점검하고 새로운 노선을 확정했다(위의 그림 참조).

이 데이터에서 흥미로운 지점이 있었다. 서울 서초구나 강남구가 주소지인 사람이 강북에 심야까지 머무르는 빈도가 적다는 것이다. 강남 사람은 강북으로 술 마시러 가는 일이 드물다는 사실에 착안해 박원순 시장은 강남 지역 심야버스는 순환버스로 만들면 어떻겠느냐는 아이디어를 내놓기도 했다.

심야버스 노선에 이어 서울시가 계획 중인 또 다른 빅 데이터 프로젝트는 택시 위치정보와 택시 승객 위치정보를 결합하는 프로그램이다. 택시는 손님을 쉽게 발견하고 택시 이용자는 택시를 빨리 탈 수 있게 만드는 것이다. 김경서 서울시 정보기획단장은 "서울 택시의 공차율이 약 40%에 이른다. 100㎞를 운전하면 약 40㎞를 빈 차로 가는 것이다. 이를 빅 데이터를 활용해 개선할 수 있다"라고 말했다.

빅 데이터 분석이 중요한 또 다른 이유는 사회 변화를 파악할 수 있다는 점이다. 여기에는 사람들이 주로 이용하는 단어와 함께 언급되는 단어의 빈도수를 분석하는 '정량적 일상관찰기법'이 사용된다. 일종의 '주관의 객관화' 과정인데, 사람들의 언어에 대한 일상적 관찰을 통해 '맥락화된 사회적 욕망'을 이해한다. 소셜 데이터 분석업체 미디컴의 윤미로씨는 "우리 사회가 점점 모계사회가 되고 있다는 것을 빅 데이터를 통해 파악할 수 있다. 예를 들어 최근에는 고모에 대해서 '불편하다'가 많은 대신 이모에 대한 언급은 '편안하다' 쪽이 많다"라고 말했다.

빅 데이터를 통한 왕따 예방

강북삼성병원이 다음소프트와 함께 개발한 자살 예보 프로그램 역시 빅 데이터 기법에 기반했다(아래 그림 참조). 공동 연구팀은 실업률과 '우울' '힘들다' 등 부정적 단어의 언급량과 자살률이 동일한 패턴을 보인다는 것에 착안해 자살 예보 프로그램을 개발했다. 실업률과 부정적인 단어의 추이를 파악하면, 우리 사회 자살 위험이 얼마나 늘어날지 예측할 수 있다는 착상에서다. 이 조사 결과, 유명인 자살 직후 자살률이 급증하는 '베르테르 효과' 역시 입증할 수 있었다.

빅 데이터를 잘 읽어내면 기업에 새로운 부가가치를 선사하기도 한다. 빅 데이터를 마케팅에 활용한 것으로 자주 인용되는 사례가 유유제약의 '멍 치료 연고'이다. 유유제약은 신제품 연고를 출시하면서 인터넷 데이터를 분석해 '벌레 물린 데' '가려운 데' 바르는 연고는 이미 타사 제품이 선점했다는 사실을 파악해 멍에 집중했다. 사람들이 멍과 관련해 언급하는 것이 달걀과 쇠고기라는 점을 파악하고 이를 광고에 활용한 것이다. 멍을 가장 고민하는 사람이 패션에 신경 쓰는 젊은 여성이라는 사실에 착안해 마케팅 전략을 짰다. '멍 치료 연고'의 판매 실적은 2012년 하반기 5개월 동안 98.6% 상승했다.

빅 데이터는 사람과 사람의 관계도 수치화해서 분석할 수 있게 해준다. 네트워크 이론 전문가 앨버트 라즐로 바라바시는 빅 데이터 분석을 통해 인맥에 관련된 중요한 사실을 알아냈다. 집단 내부 커뮤니케이션의 경우, 그룹 내 링크를 많이 가진 사람보다 외부의 다른 그룹과 링크를 가진 사람이 더 중요한 구실을 한다는 것이었다. 풀어서 말하면 친한 친구를 많이 가진 사람보다 친하지 않은 사람들과 연락이 닿는 사람이 훨씬 중요하다는 이야기다.

조기 퇴사 직원들 때문에 골머리를 앓았던 미국의 HP 사는 바라바시의 이론을 바탕으로 직원 관리 프로그램을 개발했다. 누가 조기 퇴사할 직원인지 알아내기 위해 직원 관계망을 분석한 것이다. 이를 바탕으로 회사 내 핵심 인재가 누구인지도 알 수 있었다. 한국의 빅 데이터 분석 전문기업 사이람도 이를 응용해서 회사의 핵심 인재가 누구인지, 소외된 직원이 누구인지 알아내는 프로그램을 만들었다사이람은 이 관계망 분석 프로그램을 응용해 우리 사회의 난제 해결을 위한 프로그램을 하나 개발했다. 바로 왕따 예방 프로그램이다. 사이람이 제작해 베타테스트(실험 운영) 중인 '교우관계 분석 프로그램'은 아이들 사이의 관계를 조사해 누가 소외되고 있는지를 알아낼 수 있다. 이 프로그램의 특징은 누가 왕따라고 지목하지 않아도 분석이 가능하다는 것이다.

<해운대> 성공, <타워> 실패의 이유

ⓒ시사IN 신선영 자살 방지 문구가 새겨진 마포 대교.

빅 데이터로 한국 사회를 들여다본다면 미래를 어떻게 예측할 수 있을까? 일단 '마천루 지수'를 주목할 만하다. '마천루 지수'란 초고층 건물이 많이 착공되면 호황기가 도래하지만, 완공될 즈음에는 불황으로 돌아선다는 내용으로 요약할 수 있다. 페트로나스 타워 건설 이후 말레이시아가, 101타워 건설 이후 타이베이가, 163층 버즈칼리파(버즈두바이) 완공 이후 아랍에미리트가 경험했던 일이다. 이에 따르면 세계에서 세 번째로 높은 건물이 된다는 롯데그룹 123층 건물이 완공될 즈음에는 경기가 더욱 나빠질지도 모른다.

우리 사회의 전반적 분위기는 어떻게 변화될까. 다음소프트가 분석한 자료를 보면 2011년부터 올해 상반기까지 한국인이 일상에 대해 가장 많이 사용한 표현은 '지치다'였다. 심지어 점점 증가한다는 점에서 불길하다. 사회경제학자 존 캐스티는 "불황이 찾아오고 부정적인 분위기가 조성되면 사람들은 재난 영화를 보고 싶어한다"라고 했다. 같은 블록버스터 재난 영화지만, 종합주가지수가 1500포인트였던 2009년 7월에 개봉한 <해운대>는 1000만 관객을 동원한 반면 종합주가지수가 2000포인트였던 2012년 12월에 개봉한 <타워>는 흥행에 실패했다. 이런 패턴이라면 종합주가지수가 하락세인 올여름에 개봉하는 <감기>는 흥행을 예상할 수 있다. 긍정적 사회 분위기에서 부정적 사회 분위기로 전환할 때 나타나는 또 하나의 현상은 대중문화계에 '좀비 열풍'이 분다는 것이다.

빅 데이터 관련 최고 권위자 중 한 명인 사회경제학자 존 캐스티는, '정치 지도자의 행동은 그들의 인기(사회적 분위기)를 어떻게 변화시키는가?'라는 질문을 "사회적 분위기가 정치 지도자에 대한 유권자들의 인식(인기)에 어떻게 영향을 미치는가"로 바꿀 필요가 있다고 주장했다. 여기서 하나의 가설을 세워볼 수 있다. 박근혜 대통령의 개별 통치 행위가 인기를 좌우하는 것이 아니라 전반적인 사회 분위기가 박 대통령의 인기를 결정한다는 것이다.

박근혜 대통령의 인기 이유는?

보통 국가 지도자의 인기는 주가지수 그래프와 상관성이 높다. 그런데 국내 주가지수는 5월 한 달을 제외하고는 4월 이후 계속 내림세다. 이렇게 경제도 좋지 않고 사회적 분위기도 우울한 상황에서 박근혜 대통령의 지지율은 대단히 높은 수준에서 지속되고 있다. 이에 대해 빅 데이터 자료에 기반하면 두 가지 정도의 해석이 가능할 것 같다.

하나는, 박 대통령이 '잊혔기' 때문이라는 유추다. 최근 문화체육관광부가 발표한 '빅 데이터 분석을 통해 본 2013 국민 인식변화'에 따르면, '박근혜 정부'에 대한 SNS 언급량과 뉴스 언급량은 정부 출범 이후 꾸준히 줄어들고 있다(위의 그림 참조). 장관들이 줄사퇴를 하는 등 이슈가 많을 때는 언급량이 많다가 4월 이후 급격히 감소한 것이다. 그런데 이 4월 이후 박근혜 대통령의 국정 수행 능력에 대한 평가는 '긍정' 쪽이 점점 늘어나고 있다. 박근혜 정부에 대한 언급량과 대통령의 인기가 반비례하는, 거칠게 비유하자면 대통령이 국민에게 잊힐수록 인기가 높아진다고 할 수 있다.

다른 하나는, '사람들이 미래를 두려워하는 시기엔 대개 강한 지도자를 바라고, 자신감 및 안전감을 가졌던 과거에 향수를 느낀다'라는 '빅 데이터 격언'에서 도출할 수 있다. 국민들은 '약한 야당'보다 '강한 대통령'을 더 신뢰한다. 이를 역으로 민주당에 대입해보면 국민들은 새누리당이 아니라 대통령과 맞서는 '강한 야당'을 원한다는 것을 알 수 있다. 물론 경기 하락세에 대한 책임을 떠안지 않기 위해 민생을 챙겨야 하겠지만 말이다.

고재열 기자 scoop@sisain.co.kr

 

기사 출처 : 시사IN Live

기사 원문 : http://www.sisainlive.com/news/articleView.html?idxno=17271

저작자 표시 비영리 변경 금지
신고
posted by mplanners
2012.07.31 22:18 NEWS/Word

요즘 최고의 화두는 뭐니뭐니해도 빅 데이터라고 할 수 있습니다.

흔히 쉽게들 쓰고 있는 빅 데이터는 정확하게 무엇일까요?

빅 데이터의 정의에 대해 잘 정리된 글이 있어 스크랩해 보았습니다.

 

빅 데이터의 정의

빅 데이터는 어떻게 정의할 수 있을까?

사실 빅 데이터에 대해서 구체적이고 정량적인 정의가 합의된 바는 없다.

세계적인 컨설팅 기관인  맥킨지 앤드 컴퍼니 [McKinsey & Company] 2011 5월에 발간한 보고서

'Big Data : The Next Frontier for Innovation, Competition, and Productivity'에서 "빅 데이터의 정의는 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터셋(Dataset) 규모로, 그 정의는 주관적이며 앞으로도 계속 변화될 것이다. 또한 데이터량 기준에 대해 산업분야에 따라 상대적이며 현재 기준에서는 몇 십 테라바이트에서 수 페타바이트까지가 그 범위이다" 라고 설명한다.

빅 데이터의 종류

이렇게 데이터 단위의 관점에서 빅 데이터를 생각할 수도 있지만, 어떠한 종류의 데이터들이 빅 데이터를 구성하고 있는지 알아볼 필요도 있다. 빅 데이터의 데이터 종류는 정형화 정도에 따라 다음과 같이 분류된다.

정의

설명

정형(Structured)

고정된 필드에 저장된 데이터. 관계형 데이터베이스 및 스프레드시트 등을 예로 들 수 있다.

반정형(Semi-Structured)

고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML, 텍스트 등을 예로 들 수 있다.

비정형(Unstructured)

고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다.

이 중 비정형 데이터의 증가속도는 누구도 예측할 수 없는 정도이며, 비교적 선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이고 있다.

빅 데이터와 기존 데이터의 차이점

그렇다면 빅 데이터 처리는 기존 데이터 처리와 어떻게 다를까?

IT 시장조사기관 Gartner 2011 1월 발간한 보고서 'Big Data Analytics'에서 기존 데이터 처리와 빅 데이터 처리에 대해 다음과 같은 차이점을 설명했다.



■ 빠른 의사결정이 상대적으로 덜 요구된다

대용량 데이터에 기반한 분석 위주로 장기적, 전략적 접근이 필요하다.

따라서 기존의 데이터 처리에 요구되는 즉각적인 처리속도와는 달리, 즉각적인 의사결정이 상대적으로 덜 요구된다.



■ 처리(Processing) 복잡도가 높다

다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처리 복잡도가 매우 높다.

따라서 이를 해결하기 위해 통상적으로 분산 처리 기술이 필요하다.



■ 처리할 데이터양이 방대하다

클릭스트림(Clickstream) 데이터를 예로 들면, 고객 정보수집 및 분석을 장기간에 걸쳐 수행해야 하므로 기존 방법과 비교해 처리해야 할 데이터양은 방대하다.



■ 비정형 데이터의 비중이 높다

소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신 CDR 로그, 이마트 방문 차량 로그 등

비정형 데이터 파일의 비중이 매우 높다. 처리의 복잡성을 증대시키는 요인이기도 하다.



■ 처리/분석의 유연성이 높다

잘 정의된 데이터 모델/상관관계/절차 등이 없어 기존 데이터 처리방법에 비해 처리/분석의 유연성이 높은편이다.

또한, 새롭고 다양한 처리방법의 수용을 위해 유연성이 기본적으로 보장되어야 한다.



동시처리량(Throughput)이 낮다

대용량 및 복잡한 처리를 특징으로 하고 있어 동시에 처리가 필요한 데이터양은 낮다.

따라서 실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않다.

지금까지 빅 데이터란 무엇인지, 어떤 것들이 있는지 알아보았다.

 

빅 데이터 시대를 준비하는 시작

그런데 가장 중요한 것은 지금 현재 기업들에 저장되는 자료들을 분석 처리하여 쓸모있는 데이터로 만드는 것이 무엇보다 중요하다. 의미조차 확실치 않은 또는 아직은 빅 데이터를 이용한 기업 활동이 보편적인 형태가 아닌 지금은 빅 데이터를 생각하기 보단 지금 현재 기업들에 쌓이고 있는 데이터들을 분석 가공하여 쓸모있는 데이터로 만드는 것이 빅 데이터 시대를 준비하는 시작이라고 볼 수 있겠다.

 

[출처] 씨엔정보통신 | 기술은 신뢰다
[원문] http://blog.naver.com/creemsn1/70131471397

 

저작자 표시 비영리 변경 금지
신고
posted by mplanners
prev 1 next