하루 모바일 이용자 3000만명
지식인 질문 문서 2500만건 등
막대한 데이터가 기술력 기반
“한국어 처리는 압도적 수준” 자신
4시간 샘플이면 사람 음성도 복제
“헤이 클로바, 어제 지민이 봤어?”
네이버에 ‘지민’이라고 검색해 나오는 동명이인만 무려 13명인데, 대체 누구를 말하는 걸까. 인공지능(AI)이 아닌 사람이 듣더라도 수많은 동명이인 중 말하는 사람이 지칭하는 대상이 누군지 구분해내는 건 쉽지 않다. 국내 검색 시장의 70% 이상을 차지하고 있으며 하루 평균 모바일 이용자만 3,000만명이 드나드는 네이버는 트렌드를 읽는다는 점에서 사람보다 나은 문맥 파악 능력을 보여준다. 그래서 “아, 어제 브이라이브(V LIVE)에 출연한 방탄소년단 지민 말이군요”라고 답한다.
하루 평균 5만 건의 기사가 유입되고 3억개의 키워드가 검색되는 네이버 플랫폼은 한국어 음성인식에 필요한 자연어처리(NLP) 기술 발전에 큰 도움이 되는 데이터베이스가 된다. 다양한 방식으로 표현되는 한국어를 이해하기 위해서는 수많은 학습을 통해 맥락을 파악해야 하기 때문이다. 4일 서울 강남구 역삼동 D2스타트업팩토리에서 열린 네이버 기술 포럼에서 연사로 나선 강인호 네이버 자연어처리 리더는 “우리 기술력은 한국어 처리와 관련해서는 압도적인 수준”이라고 강조했다.
2002년 서비스를 시작해 현재까지 1억건 넘는 질문과 답변이 등록된 ‘지식인(IN)’ 서비스는 네이버의 AI 스피커 클로바가 사용자의 의도를 더 잘 파악하도록 도와준다. 강 리더는 “AI 스피커가 좋은 답변을 하기 위해서는 ‘하복부 통증’이라는 말이 ‘아랫배가 아프다’와 같은 말이라는 걸 알아야 하는데, 이런 점에서 지식인 서비스가 큰 역할을 하고 있다”면서 “지식인 문서 2,500만건을 딥러닝으로 학습시키면서 클로바는 자연스럽게 의미가 같은 단어 쌍을 학습하게 된다”고 말했다.
네이버가 특히 자신 있게 내세우는 분야는 사람의 목소리를 인위적으로 만들어내는 음성합성 기술이다. 음성합성을 잘하기 위해서는 ‘3M’이라는 글을 보고 ‘삼메가’라고 읽을지 ‘삼미터’라고 읽을지 문맥을 고려해 판단하는 기술이 갖춰져야 한다. 김재민 네이버 음성합성 리더는 “네이버 클로바의 음성합성 기술은 한국어는 물론 일본어, 영어에서도 더 높은 정확성을 보인다”고 설명했다. 실제로 네이버가 외부 업체에 맡겨 진행된 한 테스트에서 네이버 클로바의 한국어 음성합성 기술 점수(4.7점)는 구글보다 2배가량 높았다. 일본어에서 진행된 음성합성 음질 테스트에서도 클로바는 3.39점을 기록해 구글 어시스턴트(3.19점)에 비해 앞선 기술력을 인정받았다.
현재 음성합성 기술의 ‘효율성’ 면에 있어서 네이버가 구글보다 앞서나가고 있다. 김재민 리더는 “4시간 분량의 샘플 음성만으로도 한 사람의 목소리를 그대로 따라 할 수 있는 기술을 개발했다”고 밝혔다. 이 분야에서 가장 앞서고 있는 구글은 제대로 된 음성합성에 40시간 정도의 시간이 필요한 것으로 알려져 있지만, 네이버가 이를 10분의 1 수준으로 줄인 것이다. 실제로 지난달 28일 일본에서 진행된 ‘라인 콘퍼런스’에서는 라인 최고마케팅책임자(CMO)가 자신의 목소리로 말하는 클로바와 대화하는 장면이 연출되기도 했다.
네이버는 앞으로의 음성인식 기술이 ‘개인화’ 방향으로 발전할 것으로 내다봤다. 한익상 네이버 음성인식 리더는 “4인 가족이 함께 스피커를 사용한다고 가정할 때, 아빠가 ‘라인 메시지 읽어줘’라고 할 때와 아이가 같은 말을 할 때를 구분해 작동하는 ‘화자 인식’ 기술을 서비스하는 게 목표”라고 밝혔다. 음성합성 분야에서도 개인화가 진행될 것으로 예상한다. 김재민 리더는 “스피커가 엄마 목소리로 아이에게 동화를 읽어준다든지, 번역기가 내 목소리를 그대로 흉내 내 상대방에게 말해주는 식으로 음성합성 기술이 구현될 것”이라고 말했다.
곽주현 기자 zooh@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0