19대 대선후보 기사ㆍSNS 언급량은 지지율 추이와 비슷
배영(숭실대 정보사회학과 교수)
사람들의 마음을 읽기 위한 노력은 오랫동안, 그리고 다양한 차원에서 이뤄져 왔다. 사람들이 품게 되는 마음은 행위의 기반이자 시작점이다. 그렇기에 사람들이 어떤 생각을 하고 있고, 또 무엇을 원하는지를 파악하기 위한 노력은 거래가 일어나는 시장에서부터 투표를 통해 정치적 의사를 표출하는 선거과정에 이르기까지 지속적으로 나타났다.
이를 위한 가장 대표적이고 전통적인 방법은 설문과 응답을 통해 진행되는 여론조사다. 시간과 비용의 제약을 받는 전수조사를 대체하기 위해, 과학적 표집(標集)을 통해 응답자를 추출하고 다각적인 분석을 활용하여 여론의 흐름과 내용을 파악해왔다. 이와 함께 몇 년 전부터 빅데이터를 이용하여 여론의 지형과 흐름을 알아내려는 시도도 활발하게 나타나고 있다. IT기술의 발전을 통해 대용량 데이터의 축적과 가공, 유통 및 분석이 가능해졌다는 점과 함께, 이용자들에 의해 생산된 데이터가 왜곡없이 축적, 분석 가능한 데이터로 활용되면서 기존 여론조사의 한계를 극복할 수 있을 것으로 기대가 커진 것이다.
빅데이터, 종류와 관심의 배경은?
빅데이터는 다양한 매체에 기반하여 생산되는 정형/비정형 데이터를 망라한 개념으로 이해된다. 빅데이터를 어떻게 정의하느냐에 따라 논의의 차원은 다양하게 이루어지겠지만, 여론(與論)의 맥락에서 파악가능한 민심(民心)의 흐름은 이용자들의 텍스트에 기반하여 생산된 비정형 데이터에 근거를 두는 경우가 많다. 가장 대표적인 유형으로 볼 수 있는 것이 트위터나 블로그와 같은 사회관계망서비스(SNS)에서 생산된 데이터이고, 이와 함께 각종 게시판과 뉴스의 댓글, 상품평 등도 이용자 혹은 소비자의 필요(needs)분석을 위한 데이터로 활용된다.
이외에도 구글의 ‘트렌드서비스’나 네이버의 ‘데이터랩 서비스’와 같이 온라인 이용자들의 검색 쿼리를 활용하여 관심의 추이와 지형을 살펴보는 방법과 함께, 뉴스 기사를 빅데이터로 활용하여 시기별 이슈의 흐름과 양상을 파악가능하게 하는 서비스도 있다. 우리의 경우 한국언론진흥재단에서 제공하는 ‘빅카인즈 서비스’가 대표적인데, 여기에서는 종합일간지, 경제지, 지역일간지, 방송사 등을 포함하여 40여개의 언론 매체로부터 제공받은 기사DB에 빅데이터 분석 기술을 접목하여 서비스를 제공한다.
민심을 읽기 위한 빅데이터가 주목 받게 된 배경에는 무엇보다 작년에 치러진 미국의 대통령 선거가 자리하고 있다. 다양한 기관과 엄청난 비용이 수반된 여론조사에서는 힐러리의 압승이 예상되었지만, 정작 결과에 있어서는 트럼프가 대통령에 당선되었는데, 여론조사 결과와 달리 구글에서 제공하는 검색량 기준의 트렌드 분석을 활용한 조사에서는 트럼프의 우위가 지속되었다는 점에서 빅데이터의 효과성이 화제의 중심이 되었다.
그렇다면, 우리의 경우는 어땠을까? 대통령 탄핵이라는 초유의 사태로 인해 조기에, 그리고 단기간에 진행된 이른바 ‘장미대선’을 대상으로 여론조사와 빅데이터에서 나타난 민심의 향방을 비교해보았다.
빅데이터, 지지와 관심 사이에서
분석을 위해 5개 정당(더불어민주당, 자유한국당, 국민의당, 바른정당, 정의당)의 후보가 확정된 3월 21일부터 선거 직전 기간까지 여론조사에 나타난 지지율 조사자료를 빅데이터 영역에 있는 신문기사와 사회관계망서비스(SNS)에서의 언급량, 그리고 이용자 검색량과 비교하였다.
지지율 추이에서 나타난 바는 다소의 변화가 있기는 했지만 문재인 후보의 지속적인 우위 속에 2,3위와 4,5위 후보들의 지지율 변화가 나타났다. 무엇보다 안철수 후보의 지지율 하락과 홍준표 후보의 상승이 두드러졌고, 유승민, 심상정 후보의 순위 바뀜도 나타났다. 빅데이터에 나타난 바를 살펴보면, 기사와 SNS에서의 언급량은 지지율 추이와 비슷한 양상을 나타내고 있었던데 비해 검색량은 다소의 차이를 발견할 수 있다.
특정 후보에 대한 언급은 해당 인물에 대한 자신의 의견을 기반으로 나타난다. 기사에서의 언급은 의견보다는 여론의 반영이라는 측면에서 다소 성격이 다르지만, 적어도 개인들의 SNS에서 나타나는 누군가에 대한 언급은 그 사람에 대한 감정이 내포되어 있다. 반면, 검색 관련 데이터는 사람들의 ‘관심’을 이해하는 데는 매우 중요한 자료로 활용될 수 있지만, 지지여부나 선호를 파악하기에는 무리가 따른다. 모든 후보들에 대한 검색량이 가장 높게 나타난 4월 25일의 경우, TV토론회가 중요하게 작용한 것으로 보여진다. 지지여부에 따른 행위의 관점에서 특정 후보에 대한 검색이 나타났다기 보다는 해당 후보와 관련된 사건과 정보에 대한 관심의 표현이 검색으로 나타난 것이다. 관심은 긍정적 이해에 기반하기도 하지만, 부정적 사건에 대한 호기심에 의해 나타나는 경우도 많고, 일반적으로 온라인에서의 급상승 이슈는 부정적 측면에 대한 비중이 높다는 점에서 검색행위를 지지행위로 간주하기는 어렵다는 것이다.
보다 의미있는 결과로 볼 수 있는 것은 선거일 일주일을 앞두고 여론조사 공표가 금지된 이른바 ‘깜깜이 기간’동안의 언급량 추이였다. 이때 기사와 SNS의 언급량에 있어 후보들 간의 변화가 나타나고 있었고, 구체적 수치까지 일치하지는 않았지만, 적어도 최종 득표율 순위와 같은 양상은 보여줬다. 때문에 민심의 흐름에 대한 지표로서는 충분히 활용가능하다는 판단이다.
마음을 읽는 일이 어렵고, 또 어렵게 읽은 마음도 변할 수 있는 것이기에, 이를 측정하는 방법의 완전성은 사실 근본적으로 기대하기 어려운 일이다. 그럼에도 다양한 사례에 대한 분석과 결과 공유가 축적되어 여론조사와 빅데이터를 활용한 방법이 서로의 한계를 보완해 줄 수 있다면 각각의 유용성은 더 커질 수 있을 것이다. 앞으로도 다양한 차원에서 민심의 파악과 이를 통한 미래에 대한 예측은 필요하고 또 중요하기 때문이다.
------------------------
* 데이터 출처: 모든 데이터는 2017년 3월 21일-5월8일까지를 대상으로, 후보별 지지율은 한국갤럽조사연구소(gallup.co.kr)의 데일리 오피니언 자료를, 기사 언급량은 한국언론진흥재단의 빅카인즈 서비스, SNS 언급량은 조사전문업체인 닐슨코리안클릭(koreanclick.com)의 버즈워드(Buzzword)데이터 중 트위터 채널을 이용하였고, 검색량 추이는 네이버 데이터랩 서비스에서 추출함.
기사 URL이 복사되었습니다.
댓글0