읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
알림
알림
  • 알림이 없습니다

5명의 대통령 발언 1,000만자 어떻게 분석했나

입력
2020.05.08 04:30
2면
0 0

[문재인 대통령 3년 딥러닝 분석]

‘워드투벡터’ 기법 적용... 단어를 의미군으로 묶어

한국일보는 7일 문재인 대통령의 발언 1,054건을 ‘워드투벡터(Word2Vec)’ 기법으로 분석했다. 게티이미지뱅크
한국일보는 7일 문재인 대통령의 발언 1,054건을 ‘워드투벡터(Word2Vec)’ 기법으로 분석했다. 게티이미지뱅크

한국일보는 문재인 대통령의 발언을 정밀 분석해 문재인 정부의 정체성을 정의하고자 했다. 2017년 5월 10일 대통령 취임사부터 2020년 5월 4일 청와대 수석보좌관회의 발언까지, 지난 3년간 문 대통령의 발언 1,054건을 전수 분석했다. 연설ㆍ축사ㆍ회의ㆍ대담 등을 합해 글자수는 183만4,679자에 달한다.

분석 방법으로는 인공신경망(Artificail Neural Network) 기술이 적용된 자연어 처리(임베딩) 기법 ‘워드투벡터(Word2Vec)’를 한국 언론 최초로 사용했다. 워드투벡터는 데이터에 딥러닝(Deep Learning) 기법을 적용, 말뭉치를 수학적 벡터로 변환하는 기술이다. 특정 단어가 어떤 단어들과 의미군(群)으로 묶이는지를 심층 분석하고, 단어의 맥락적 의미 등을 유추할 수 있다.

문재인 대통령이 2017년 5월 10일 국회에서 19대 대통령 취임식을 마치고 떠나며 부인 김정숙 여사와 함께 시민들에게 손을 들어 인사하고 있다. 한국일보 자료사진
문재인 대통령이 2017년 5월 10일 국회에서 19대 대통령 취임식을 마치고 떠나며 부인 김정숙 여사와 함께 시민들에게 손을 들어 인사하고 있다. 한국일보 자료사진

문 대통령의 국정 철학을 입체적으로 평가하기 위해 국가기록원에 등록돼 있는 김대중(855건ㆍ222만6,897자)ㆍ노무현(797건ㆍ190만5,447자)ㆍ이명박(819건ㆍ197만8,145자)ㆍ박근혜(493건ㆍ96만361자) 전 대통령의 연설 등도 함께 분석했다. 집권하기 전과 후의 생각 변화를 살펴보기 위해 문 대통령의 19대 국회의원 시절 발언 등 642건(83만2,999자)도 분석 대상에 포함했다. 본보가 분석한 발언을 모두 합치면 927만1,528자에 달한다.

코딩에는 파이썬(Python)을 활용했고, 형태소 분석은 ‘은전한닢’(Mecab-ko)을 썼다. 워드투백 학습시 스킵그램(Skip-Gram) 모델을 적용했고, 한번에 학습할 단어 개수는 8개(window=8), 차원은 300차원(size=300)으로 설정했다.

신은별 기자 ebshin@hankookilbo.com

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.