읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
트럼프의 승리, 빅데이터는 알고 있었다
알림
알림
  • 알림이 없습니다

트럼프의 승리, 빅데이터는 알고 있었다

입력
2016.11.10 17:57
0 0

SNS 공식 계정 구독ㆍ검색 횟수

트럼프가 클린턴 항상 웃돌아

빅데이터 기반 결과 분석한

우종필 세종대교수 예측 적중

인도 AI도 “트럼프 승” 점쳐

여론조사보다 표본 많아 정확성

“젊은층 여론 위주… 보완 필요”

‘미국 대통령 선거의 또 다른 승자는 ‘빅데이터’다?’

미 주요 언론이 도널드 트럼프 공화당 후보의 대선 승리를 전혀 예측하지 못한 가운데 빅데이터는 일찌감치 트럼프의 압승을 점친 것으로 드러나며 인공지능(AI)의 예지력이 다시 주목 받고 있다.

우종필 세종대 교수는 지난 3일 자신의 홈페이지에 “대선 당선자는 트럼프가 될 것”이라며 “선거인단 수는 트럼프 285~275명, 힐러리 클린턴 263~253명”라고 예측했다. 실제 선거 결과는 트럼프가 306명, 클린턴이 232명의 선거인단을 확보해 다소 빗나갔지만 트럼프의 승리를 내다본 것은 적중했다.

우 교수가 선거 결과를 정확하게 꿰뚫어 볼 수 있었던 비결은 ‘빅데이터 분석’에 있었다. 우 교수에 따르면 이미 온라인상 여러 지표들은 한결같이 트럼프를 승자로 지목했다. 우선 각종 사회관계망서비스(SNS)에서 트럼프 공식 계정을 구독하는 사람의 수는 클린턴 계정 구독자보다 훨씬 많았다. 세계 최대 SNS인 페이스북만 봐도 대선 직전 트럼프 계정은 1,170만여명의 구독자를 둔 반면 클린턴 계정은 744만여명에 그쳤다.

구글 트렌드에 따르면 지난 3개월 동안 ‘도널드 트럼프’ 검색 횟수는 평균적으로 ‘힐러리 클린턴’ 검색 횟수보다 많았다. 구글 트렌드 캡처
구글 트렌드에 따르면 지난 3개월 동안 ‘도널드 트럼프’ 검색 횟수는 평균적으로 ‘힐러리 클린턴’ 검색 횟수보다 많았다. 구글 트렌드 캡처
구글 트렌드에 따르면 지난 3개월 동안 ‘Vote Trump’(트럼프에 투표하라) 검색 횟수는 ‘Vote Clinton’을 항상 압도했다. 구글 트렌드 캡처
구글 트렌드에 따르면 지난 3개월 동안 ‘Vote Trump’(트럼프에 투표하라) 검색 횟수는 ‘Vote Clinton’을 항상 압도했다. 구글 트렌드 캡처

구글 검색량 추이를 보여주는 ‘구글 트렌드’도 비슷한 결과를 보여줬다. 구글 트렌드에 따르면 지난 1년 동안 미국에서 ‘도널드 트럼프’를 검색한 횟수는 클린턴 이메일 스캔들 등이 있었던 일부 기간을 제외하면 항상 ‘힐러리 클린턴’을 검색한 횟수를 웃돌았다. 유권자들은 클린턴보다 트럼프에 관심이 많았다는 증거다. ‘트럼프에게 투표하라’(Vote Trump)의 검색 횟수 역시 ‘클린턴에게 투표하라’(Vote Clinton)를 항상 압도했다.

인도계 신생 혁신 기업(스타트업)인 ‘제닉AI’가 만든 인공지능 프로그램 ‘모그IA’도 지난달말 페이스북, 트위터, 유튜브 등 SNS에서 수집한 2,000만개의 데이터를 토대로 트럼프가 승리할 것이라고 내다봤다. 산지브 라이 제닉AI 대표는 “모그IA는 어떤 데이터도 버리거나 차별하지 않고 모두 축척해 분석한다”며 “이 때문에 개발자의 의도나 편견이 개입될 수 없다”고 말했다.

이처럼 빅데이터가 기존 여론조사보다 정확도가 높은 이유는 무엇보다 조사 대상 자체가 많기 때문이다. 우 교수는 “현재 미국 여론조사는 보통 1,000여명의 표본집단을 대상으로 이뤄지는데, 전체 유권자가 1억3,000만명에 이르는 것을 감안하면 0.00001%에 불과하다”며 “반면 온라인에서 모이는 데이터는 수억건이고, 이를 모두 수집할 수 있기 때문에 추론이 더 정확할 수밖에 없다”고 말했다.

빅데이터는 또 여론의 변화를 실시간으로 들여다볼 수 있다. 유권자들의 의식적인 판단이 끼어들 여지도 적다. 우 교수는 “하루에도 수십만명의 유권자들이 자신도 모르는 사이에 표심을 빅데이터에 쏟아낸다”며 “반면 여론조사에선 응답을 거부하거나 숨은 속마음을 잘 드러내지 않는 경우가 많다”고 지적했다. 특히 도덕적 판단이 결부된 문제일수록 비난을 피하기 위해서라도 솔직한 응답을 꺼린다. 겉으로 트럼프 지지 의사를 드러내지 않던 이른바 ‘샤이 트럼프’들이 투표 당일에 ‘몰표’를 던진 배경이다.

그러나 빅데이터 분석에도 한계는 있다. 인터넷을 활발하게 이용하는 연령대는 아무래도 젊은 층이 많다. 또 온라인에서는 긴 글보다 짧은 글을 남기고 ‘좋아요’나 ‘공감’단추를 누르는 식으로 의사 표현을 대신한다. 그 결과 빅데이터가 여론을 보여주기는 하지만 ‘왜 그렇게 변화하는지’는 설명하지 못한다.

이진형 LG CNS 소셜데이터분석팀장은 “표본집단 설문조사 방식의 여론조사와 빅데이터 분석은 장단점이 뚜렷하다”며 “빅데이터로 전체적인 흐름을 살피면서 원인 분석이 필요할 때 표본집단을 추출해 설문조사하는 등의 방식으로 상호 보완할 필요가 있다”고 말했다. 이서희 기자 shlee@hankookilbo.com

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.