지난 3일부터 9일까지는 여론조사 공표가 금지되는 ‘깜깜이 선거 기간’이지만 빅데이터를 통해 판세를 점쳐보는 건 가능하다. 빅데이터는 한결같이 문재인 더불어민주당 후보의 우위를 나타낸 가운데 홍준표 자유민주당 후보의 뒷심도 뚜렷하게 드러냈다.
인공지능(AI) 신생벤처기업(스타트업) 파운트AI는 4월 7일~5월 7일 약 한 달 간 대선 후보 별 인터넷 언급량을 살펴본 결과 문재인 후보의 언급량이 평균 점유율 41.17%로 가장 많았다고 8일 밝혔다. 이어 안철수 국민의당 후보가 27.86%로 2위, 홍준표 후보는 14.48%로 3위였다.
그러나 날짜 별로 보면 최근 들어 홍 후보가 안 후보를 앞서는 양상이 뚜렷했다. 홍 후보는 지난달 28일까지만 해도 온라인 언급량이 안 후보에 뒤졌지만 29일 처음 역전한 이후 7일까지 줄곧 앞섰다. 문 후보는 비중이 널뛰기는 했지만 항상 1위 자리를 지켰다.
파운트AI는 이 기간 포털 구글ㆍ네이버와 사회관계망서비스(SNS) 트위터에 올라온 게시물 약 1,500만건을 분석했다. 지지율과 가장 비슷한 흐름을 보이는 구글 결과에는 가중치를 줬다. 박철웅 파운트AI 박사는 “후보자 별 관심도를 나타내는 단순 데이터지만 여론조사 지지율을 선행해 반영하는 모습을 보여왔다”고 전했다.
포털 검색량 추이도 비슷한 추세로 나타났다. 구글 검색량 흐름을 보여주는 구글 트렌드에 따르면 지난달 8일부터 이달 6일까지 ‘문재인’ 검색 관심도는 평균 64점으로 가장 높았다. 문재인을 검색한 횟수는 지난달 18일 이후 단 하루를 제외하면 내내 다른 후보들을 압도했다. ‘홍준표’ 관심도는 최근 한 달 평균 42점으로, 54점인 ‘안철수’ 관심도보다 낮았으나 지난달 26일 이후 계속 우위를 점했다. 네이버에서도 홍준표 검색 횟수가 4월 셋째주를 지나면서 안철수 검색 횟수를 앞질렀다. 해당 후보에 대한 지지 의사를 간접적으로 드러내는 ‘○○○(후보자 이름) 투표’ 검색량을 비교했을 때 역시 추이는 비슷했다.
빅데이터는 대체로 지지율과 비슷한 흐름을 나타낸다는 점에서 눈여겨볼 만 하다. 오히려 빅데이터가 기존 여론조사보다 정확하다는 분석도 나온다. 온라인에서 모이는 데이터는 수천만~수억 건이어서 대상자가 최대 수천여 명에 불과한 여론조사보다 표본이 많기 때문이다. 여론 변화를 실시간으로 살펴보는 것도 가능하다.
아울러 현실과 다른 의도적인 판단이 끼어들 여지도 적다. 지난해 구글 트렌드 분석 등을 통해 도널드 트럼프 미국 대통령의 당선을 정확하게 예측한 우종필 세종대 교수는 “하루에도 수십만명의 유권자들이 자신도 모르는 사이에 표심을 빅데이터에 쏟아낸다”며 “반면 여론조사에선 응답을 거부하거나 숨은 속마음을 잘 드러내지 않는 경우가 많다”고 풀이했다. 겉으로 트럼프 지지 의사를 드러내지 않던 이른바 ‘샤이 트럼프’들이 투표 당일에 몰표를 던진 배경이다.
그러나 빅데이터 분석에도 한계는 있다. 인터넷을 활발하게 이용하는 연령대는 아무래도 젊은 층이 많다. 또 온라인에서는 긴 글보다는 짧은 글을 남기고 ‘좋아요’나 ‘공감’ 단추를 누르는 방식으로 의사 표현을 하기 때문에 여론의 흐름을 보여주기는 하지만 ‘왜 그렇게 변하는지’는 설명하지 못한다. 조솔 LG CNS 데이터융합사업팀장은 “관심 주제에 대한 긍정ㆍ부정 여부를 단순 검색만으로는 알 수 없기 때문에 빅데이터 분석 결과를 맹목적으로 신뢰하는 것은 경계해야 한다”고 말했다.
이서희 기자 shlee@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0