코로나19를 둘러싼 말들의 세계를 엿보다

신종 코로나바이러스 감염증(코로나19)에 대한 이야기가 넘쳐난다. 코로나19와 관련된 정보와 논란, 우려, 불안들이 일상이 됐다. 확진 환자의 동선이 공개되면 지난 며칠을 되돌아보며 안도와 걱정이 엇갈린다. 여러 사람을 감염시켰을 것이라 의심되는 확진 환자나 단체에 대한 분노도 심심찮게 목격할 수 있다. 덕분에 당장 주위에 환자가 없다 해도, 바이러스에 대한 무수한 말은 우리를 걱정과 함께 움츠리게 한다. 물론 우리의 공포는 기본적으로 코로나19의 막강한 전염력 때문이지만, 바이러스와 관련한 우리의 말 역시 그 공포를 널리 확산시키고 증폭시킨다. 코로나19와 함께, 바이러스에 대한 말과 거기에 담긴 정보와 정서도 마치 바이러스처럼 퍼지고 있다.

그렇다면, 마치 바이러스의 확산 경로를 추적하고 정체를 밝히는 것처럼, 바이러스를 둘러싼 말에 대해서도 그 궤적을 살펴보고 추적할 수 있을까. 쉽지 않지만, 현재의 위험에 대한 우리 인식의 근거를 볼 수 있다는 점에서 의미가 크다. 컴퓨터를 활용해 대량의 문서에서 유용한 정보를 추출하는 텍스트 마이닝(text mining)을 통하면 추적이 가능하다. 특히 많은 양의 문서나 글을 요약하는 것이 목적이라면, 토픽 모델링(topic modeling)이 효과적이다. 토픽 모델링은 대량의 문서에서 해당 문서들을 잘 요약하는 여러 개의 주제, 즉 토픽들을 추출하는 방법이다.

[저작권 한국일보]

우리 사회에서 코로나19와 관련한 말을 분석하기 위해 우선 공적 담론 영역에 속한 뉴스 기사를 살펴보았다. 코로나19가 사회문제가 된 2020년 1월 7일부터 2월 23일까지를 대상으로 ‘코로나’를 제목이나 본문에 포함한 기사를 여섯 개 언론사(한국, 조선, 중앙, 동아, 한겨레, 경향)로부터 수집하였다. 수집에는 한국언론재단의 빅카인즈(BigKinds) 서비스를 활용했다. 몇 가지 기준으로 중복 기사를 제거한 후, 분석 대상을 7,768개 기사로 확정했다. 그리고 여기에 토픽 모델링을 적용해 이 기사들 속에 어떤 토픽이 존재하는지, 이들은 시간에 따라 어떻게 변화하는지 분석했다.

우선 자료에서 50개의 토픽을 추출했다. 7,768 개의 기사가 50개의 토픽으로 요약된 것이다. 이렇게 요약한 50개의 주제는 여전히 인간이 직관적으로 전체 지형을 판단하기에는 많은 정보다. 우리는 토픽들의 상관관계를 고려해, 네트워크 클러스터링 알고리즘을 활용해 서로 자주 함께 등장하는 토픽들을 묶었다. 그 결과 50개의 토픽이 7개의 토픽 집합으로 나눴다(시각물 ‘코로나 관련 기사 토픽별 네트워크 구조’ 참조).

이처럼 여러 개의 토픽으로 구성된 7개의 집합을 구성하고, 각 집합에 속하는 토픽을 관통하는 해석을 새로 부여했다. 그 결과 토픽들을 7개의 대주제로 분류할 수 있었다. 1번 대주제는‘코로나19와 중국’이다. 여기에는 코로나19로 인한 중국과 항공편 중단이나, 중국에서 발생한 바이러스에 대한 자세한 설명과 같은 토픽이 포함되어 있다. 2번 대주제는 ‘코로나19와 사회 문제’이다. 가짜 뉴스나 코로나19로 위축된 소비 생활, 집회를 둘러싼 사회적 갈등 등의 토픽이 포함되어 있다. 세 번째는 ‘정부 및 정치권 움직임’, 네 번째는 ‘코로나19와 예술 체육계 소식’, 다섯 번째는 ‘대중 관계, 대북 관계’, 여섯 번째는 ‘확진 환자 정보와 의료 기관 대응 소식’, 일곱 번째는 ‘코로나로 인한 경제 영향’이다. 7,768개의 기사가 50개의 토픽으로, 그것을 다시 7개의 대주제로 요약한 것이다.

토픽 모델링은 기본적으로 토픽들이 전체 문서에서 차지하는 비중을 추정한다. 이를 활용하면, 토픽들의 집합인 대주제의 비중도 추정할 수 있다. 중국을 언급하며 코로나19를 설명한 주제들이 가장 높은 비중을 차지했다. 두 번째는 확진 환자 정보와 의료 기관 대응 소식이며, 세 번째는 코로나19와 사회문제이다. 이런 주제의 기사들이 우리의 시선과 귀를 차지하고 있다고 볼 수 있다.

시기별 비중은 어떨까. 가장 특징적인 점은 초기에 중국과 관련된 주제들의 비중이 증가했다가 감소했다는 것과 확진 환자 정보 및 의료 기관 대응 추이에 대한 주제들이 급격히 증가하고 있다는 것이다. 우선 이것은 지난 1월까지 언론에서 나타난 코로나19 관련 기사는 중국과의 연결을 중심이었기 때문이다. 최근 확진 환자 및 의료 기관 대응에 대한 주제의 비중이 증가한 것은, 확진 환자의 숫자 증가 추이를 보면 쉽게 이해할 수 있다. 특히 18일 이후 확진 환자 숫자의 증가가 매우 급격하게 늘어나면서 그에 대한 정보가 증가했음을 볼 수 있다. 대주제 비중 변동 그래프는 그것의 반영이다. 그 이외에도 코로나19의 영향이 장기화하면서, 코로나19로 인한 사회적 갈등과 경제 문제 등의 비중이 점차 증가하고 있다는 점도 주목할 만하다.

[저작권 한국일보]날짜별 기사 숫자와 확진자 숫자/ 강준구 기자/2020-02-28(한국일보)

마지막으로, 언론 기사의 날짜별 숫자 변화도 흥미로운 패턴을 보여준다. 기사 숫자는 2월 초부터 폭증하기 시작했다. 아직 확진 환자 숫자가 30명이 안 되던 시점부터 무수한 기사가 쏟아져 나오고 있었던 셈이다. 그리고 최근에야 확진 환자 숫자가 폭증했다. 무수한 기사 속의 말과 정보가 바이러스의 확산을 효과적으로 억제하는데 과연 도움이 되었는지는 별도로 따져 볼 대목이다.

우리는 물리적 세계만큼이나 말과 의미의 세계에서 살고 있다. 그리고 말은 마치 바이러스가 그러하듯 사람을 통해 확산하고 우리의 인식에 영향을 미친다. 모두가 위험에 직면하고 있는 지금, 신중한 말과 정확한 정보는 어느 때보다 중요하다. 코로나19가 만들어내는 생물학적 위험만큼이나, 말과 글이 만들어내는 위험 역시 심각할 수 있다.

조원광(포스텍 사회문화데이터사이언스연구소 연구위원)

한국일보-포스텍 데이터사이언스포럼 공동기획

공감은 비로그인 상태에서도 가능합니다

web_cdn 저작권자 © 한국일보 무단전재 및 재배포 금지

오피니언 최신기사