읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
알림
알림
  • 알림이 없습니다

‘평창 막국수’를 컴퓨터는 어떻게 번역할까

입력
2016.11.02 14:58
0 0

지난봄 일본 오키나와에 갔을 때 일이다. 유명한 식당이 있다고 해서 근처까지는 찾아갔는데, 마을 골목에 들에서는 도저히 찾을 수가 없었다. 아무나 붙잡고 식당 위치를 물어봤다. 아는 단어는 '소바'(국수)와 '아리마스까?(있습니까?)' 밖에 없었다.

다행히 행인은 바로 옆 어떤 건물을 가리켰다. 하지만 아무리 봐도 그 건물이 유명하다는 식당은 아닌 것 같았다. 사람도 없었고 불도 꺼져 있었다. 간판도 찾을 수 없었다. 뭔가 의미 전달이 잘못됐나 싶어 한참을 똑같은 단어만 5분이나 되풀이하는 서로 답답한 상황이 연출됐다. 알고 보니 하필이면 그날부터 며칠 동안 식당 주인이 문을 닫고 휴가를 떠난 것이다.

휴가를 간 것 같다는 행인의 설명을 듣지 못하고, 식당 문에 붙어있던 휴가 일정을 알리는 쪽지를 읽지 못해 생긴 민망한 일이었다. 최신 번역 애플리케이션(앱)을 사용했다면 소통이 가능했을 텐데, 당시에는 미처 생각지를 못했다.

번역 서비스 기술이 전례 없이 새로워지고 있다. 스마트폰에 무료 앱을 내려 받아 세계 어느 나라에서든지 써먹을 수 있는 시대다. 국내에서는 두 업체가 선두다. 한글과 컴퓨터는 하이브리드 기술을, 네이버는 딥러닝 기술을 들고 번역 서비스 발전을 주도하고 있다.

한컴인터프리 '지니톡'
한컴인터프리 '지니톡'

지니톡: 컴퓨터가 '평창 막국수'를 번역하는 법

"다른 언어를 100% 번역할 수 있는 솔루션은 아직 존재하지 않습니다. 기계번역 기술의 목표는 내가 말한 것을 상대방이 이해할 수 있도록 하는 것이죠."

김무중 한컴인터프리 수석연구원은 번역 서비스에서 가장 중요한 요소로 "대화의 맥락을 파악하는 일"이라고 강조한다.

한컴인터프리가 서비스 중인 스마트폰 번역 앱 '지니톡'은 하이브리드 엔진으로 동작한다. 번역 기술을 발전 순서에 따라 나열해보면 크게 3가지로 볼 수 있는데, 규칙기반번역(RBMT)과 통계기반번역(SMT), 인공신경망번역(NMT)이다. 지니톡은 이 중 RBMT와 SMT의 융합기술이다.

RBMT는 쉽게 말해 문장을 구성하는 문법과 규칙을 일일이 입력해 쌓아놓은 것이다. 언어에 능통한 학자의 역할이 중요한 작업이다. 번역 결과는 모두 이 규칙에 기반해 도출된다. 한국의 초등학생이 한국의 학교 교실에서 영어 문법 교육을 받는 것과 같다.

SMT는 출발언어와 번역될 언어의 짝을 지속적으로 모아 통계를 내는 것을 말한다. '나는 너를 사랑해'라는 우리말 문장이 'I love you'로 번역될 수 있는 것은 우리말이 영어의 어떤 어휘와 문장으로 번역될 가능성이 높은지 따지는 확률에 기반한 결과다. 이는 한국의 초등학생이 사전 영어교육 없이 미국에 간 것과 같다. 또래 친구들이 하는 말을 듣고 어떤 말이 의미하는 바를 경험으로 이해하는 과정이다. 경험이 많을수록 확률도 올라간다. 제대로 된 SMT 번역 서비스를 위해서는 최소 100만 개 이상의 문장이 필요하다고 한다.

하지만 두 방법 모두 한계는 뚜렷하다. RBMT는 문법에 기반을 두다 보니 문법과 맞지 않는 일상적인 발화에 취약하다. 전혀 엉뚱한 번역 결과가 나온다. SMT도 마찬가지다. 통계에 기반한 번역 기술은 그야말로 확률적인 오류를 내포한다. 한컴인터프리의 선택은 이 두 기술의 혼합이다. RBMT가 못 하는 번역은 SMT로, SMT가 취약한 부분은 RBMT가, 서로 단점을 보완하며 더 신뢰할 수 있는 번역 결과를 찾는 기술인 것이다.

물론, 김무중 수석연구원의 말처럼 지니톡도 모든 일상의 대화를 완벽하게 번역해주지 못한다. 대화의 맥락을 이해하고, 조금 오류가 있더라도 말이 통하도록 돕는 것이 목표다. 한컴인터프리의 단기적인 목표는 2018년 개최될 평창 올림픽이다. 특정 상황에서 유용하게 쓰일 수 있는 서비스 개발을 위해서다.

인터넷에 연결돼 있지 않아도 번역 서비스를 활용할 수 있는 OTG 제품
인터넷에 연결돼 있지 않아도 번역 서비스를 활용할 수 있는 OTG 제품
김무중 한컴인터프리 수석연구원
김무중 한컴인터프리 수석연구원

"외국 선수단이나 평창 올림픽을 방문한 관광객들이 거쳐 가는 지역이나 상황이 존재하잖아요? 어떤 일이 발생하고, 그 일에서 오간 대화를 모으면, 평창 올림픽에 특화된 말뭉치가 만들어지는 거죠. 평창에서 가장 유명한 음식이 무엇인지 묻는 외국인에게 막국수라고 대답해도 자연스럽게 번역을 해주는 서비스가 만들어지는 것입니다."

한컴인터프리는 평창 올림픽 이후 지역 특화 번역 서비스 기술을 꾸준히 개발할 예정이다. 뉴욕이나 도쿄, 상하이 등 무대는 넓다. 오프라인에서도 번역 앱을 이용할 수 있도록 스마트폰에 끼울 수 있는 OTG(On-the-go) 형태의 번역 상품도 개발 중이다.

네이버 '파파고'의 번역 실력
네이버 '파파고'의 번역 실력

파파고: '알파고'가 번역을 배운다면 바로 이렇게

대화의 맥락을 이해하는 자연스러운 번역 서비스 개발이라는 목표는 같지만, 네이버의 기술은 한컴인터프리와 조금 다르다. 네이버는 2015년부터 NMT 기술에 집중한 번역 기술을 개발하고 있다. 10월 공개한 번역 앱 파파고도 사용자들로부터 좋은 반응을 얻고 있다. 김준석 네이버 수석연구원은 "신뢰를 얻는 것이 목표"라고 말한다.

"지금까지 번역 서비스는 조롱거리로 많이 쓰였어요. 정확하지 않았기 때문이죠. 하지만 여행이나 길거리에서 외국인과 대화를 나누는 상황에서는 아주 조금은 틀려도 사람이 이해할 수 있으면 되거든요. 실질적인 도움을 받을 수 있는 것이죠. 기존 번역 기술을 믿지 않는 사람들이 이제 번역 앱을 이용해도 되겠더라는 생각을 하도록 하는 것이 목표입니다."

NMT는 인공신경망 기술을 번역 서비스에 활용하는 것을 말한다. 번역 엔진이 마치 인공지능 바둑 시스템으로 유명한 '알파고'처럼 딥러닝을 통해 번역 품질을 개선한다. 네이버의 NMT는 어휘나 문장을 가상의 공간에 배치하는 것이 핵심이다. '사과'는 '배'와 비슷한 공간에 놓일 수 있다. 'Drink'와 'Eat'도 서로 가까운 공간에 배치되게 된다. 수많은 말과 문장은 인공신경망을 가르치기 위한 데이터로 변환돼 입력된다.

알파고가 바둑을 배우기 위해 사용한 데이터가 바둑 경기의 '기보'였다면, 파파고가 번역을 배우는 데 사용하는 데이터는 말과 문장인 셈이다. 파파고의 딥러닝이 정교해질수록 우리말의 단어나 어휘가 영어의 단어나 어휘로 번역되는 네트워크의 가중치가 변화한다. 높은 가중치를 가진 쪽으로 번역 된다는 의미다.

"딥러닝의 위대한 점이 무엇이냐면요. 네트워크 구조와 번역 결과의 연관성을 잘 몰라도 된다는 점이죠. 다만, 엔지니어들은 번역이 잘되도록 인공신경망을 프로그래밍 하면 됩니다. 번역이 잘 되는 구조를 엔지니어가 수많은 실험을 통해 만들어 나가는 것이죠."

김준석 네이버 수석연구원
김준석 네이버 수석연구원

사람이 모든 번역 과정을 통제할 필요가 없다. 엔지니어는 그저 인공신경망이 딥러닝을 통해 번역 알고리즘을 잘 학습할 수 있도록 만들기만 하면 된다. 이 같은 특징의 좋은 점은 전혀 새로운 문장이 입력돼도 번역을 할 수 있다는 것이다. 규칙기반 번역은 규칙이 없으면 번역이 안 된다. 통계기반 번역도 통계를 낼 수 없는 번역 결과는 받아볼 수 없다. 딥러닝 기술은 기존 번역 기술의 단점을 모두 초월한다.

네이버 내부 평가 결과가 흥미롭다. 기존 번역 기술의 번역 점수는 100점 만점에 30점이었는데, 딥러닝을 활용한 파파고의 점수는 60점을 기록했다고 한다. 점수로만 따지면, 100% 실력향상을 기대할 수 있는 셈이다. 현재 네이버는 파파고 앱을 통해 음성인식과 음성합성, 이미지 번역 기술 등을 제공하고 있다.

"전문 번역가들이 파파고에 도움을 받을 수 있다면 큰 의미가 있다고 생각해요. 예전 기술에는 부정적인 인식이 많았는데, 요즘은 초벌 번역 정도는 파파고를 통해 할 수 있을 것 같다는 긍정적인 의견이 많아요. 인식이 바뀌는 것은 정말 큰 의미가 있는 일입니다."

오원석 IT칼럼니스트

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.