#가상현실(VR) 속, 좋아하는 연예인과 마주 앉은 상태로 ‘나만을 위한’ 인터뷰가 시작된다. 최근 발매한 앨범에 대해 들뜬 목소리로 빠르게 소개를 이어가던 그에게 평소 궁금했던 루머에 관해 묻자, 진지하고 심각한 목소리로 천천히 답을 한다. 대뜸 화를 내자 당황한 목소리가 튀어나오고, 재미있는 이야기에는 박장대소를 하기도 한다. 맥락과 내용에 따라 다양한 감정을 드러내는 이 목소리는, 사람이 직접 녹음한 목소리가 아닌 인공지능(AI)의 연기 실력이다.
이와 같은 체험을 가능하게 하는 곳은 김태수(40) 대표가 이끄는 3년차 스타트업 네오사피엔스다. 김 대표는 “현재 AI 스피커 음성이 책을 읽는 수준이라고 하면, 우리의 기술은 특정 목소리에 감정을 담아 연기를 하는 것”이라며 “AI가 개성을 가지면 사람들에게 ‘맞춤형 즐거움’을 제공할 수 있다”고 말했다.
학창시절부터 ‘소리를 전기 신호에 잡아두는’ 전기 기타의 원리를 궁금해했던 김 대표는 카이스트 석ㆍ박사 과정에 걸쳐 음성과 인공신경망(AI 학습 알고리즘)을 연구했다. 음성으로 집안 불을 켜거나 끄고, 음악소리를 인식해 어떤 음악인지 찾는 등 현재 널리 쓰이는 기술을 개발한 게 김 대표가 대학원생이던 2001년쯤이었다. 그러나 당시만 해도 시장에서는 음성인식 기술의 필요성을 전혀 느끼지 못했다. 김 대표가 기술뿐 아니라 시장성과 사용자에 대해서도 고민하게 된 계기다.
이후에도 비슷한 일이 계속됐다. 박사 과정을 마치고 LG전자에 근무할 때 쓴 목소리 추출 기술에 관한 논문은 세계적으로 290여회나 인용될 정도로 ‘히트’를 쳤지만, 정작 상업적으로는 성공하지 못했다. 이후 퀄컴에 입사해 특정 키워드를 발음하면 기기가 켜지는 ‘웨이크업 콜’을 개발했지만 이것도 애플이 음성 비서 ‘시리’를 내놓고 아마존이 ‘알렉사’를 출시한 뒤에야 본격적으로 시장이 열렸다. 국내에서 무시 받던 음성인식 분야가 본격적으로 주목 받기 시작한 것도 구글이 음성검색 서비스를 시작하고 나서였다. 김 대표는 “세상에 영향을 미치려면 단순히 기술을 개발하는 걸 넘어 트렌드를 이끌어야 한다는 걸 깨달았다”면서 “그게 잘 다니던 회사를 퇴사하고 스타트업을 창업한 이유”라고 말했다.
네오사피엔스의 대표 기술은 1시간 정도의 음성 샘플을 AI가 학습한 뒤 목소리와 말투를 비슷하게 흉내내 한국어와 영어를 동시에 구사할 수 있도록 만들어진 ‘아이스픽AI(Icepick.AI)’다. 지난해 한 퀴즈쇼 애플리케이션과의 협업으로 제작한 ‘한국말 하는 트럼프 대통령’ 영상은 도널드 트럼프 미국 대통령의 영어 음성을 단 40여분 학습한 결과물이다. 고인이 된 사람의 목소리를 복원해 영상으로 만드는 서비스도 있다. 기업에서 선대 회장의 목소리를 빌어 임직원들에게 메시지를 전달한 사례도 있다. 김 대표는 “단순히 고인의 목소리로 텍스트를 읽는 것을 넘어 ‘꾸짖는다’ ‘칭찬한다’ 등 다양한 분위기 표현까지 할 수 있다”고 강조했다.
현재 네오사피엔스는 AI가 목소리 연기를 하는 콘텐츠 제작 플랫폼을 준비하고 있다. 연기자나 성우가 직접 시나리오대로 연기하며 녹음하는 과정을 거치지 않아도 AI가 그 작업을 대신해 비용과 시간을 아끼며 쉽게 콘텐츠를 생산할 수 있게 되는 것이다. 김 대표는 “콘텐츠 제작자가 감독의 입장에서, 특정 부분에 어떤 느낌을 더 살리고 싶은지에 따라 AI 목소리를 수정할 수 있다”고 설명했다. 향후엔 시나리오만 입력해도 내용과 분위기, 맥락에 맞는 배역 목소리와 감정, 목소리 톤이 자동으로 형성되는 수준까지 이를 것으로 보인다.
네오사피엔스의 AI 음성합성 기술은 세계적으로도 매우 앞선 수준이다. 김 대표는 “맥락을 읽고 대화하는 기술은 구글이 가장 앞서 있지만, 다양한 스타일로 음성합성을 해낼 수 있는 곳은 우리뿐”이라고 자부했다. 5월 영국 브라이튼에서 열리는 세계적인 학술대회 ICASSP에서는 관련 내용을 담은 논문을 구두로 발표할 예정이다. 해당 세션에는 구글과 카이스트, 캐나다 몬트리올대 등 음성합성 분야에서 내로라하는 연구자들만 발표한다.
창업한 지 1년 반 된 신생 스타트업인데도 이미 지난해까지 12억원에 달하는 누적 투자금을 유치한 것은 음성합성 분야를 선도해나가는 네오사피엔스의 가능성을 인정받은 덕분이다.
김 대표는 음성합성 기술이 미래에 새로운 시장을 열 것이라고 내다봤다. 10여년 전만 해도 외면 받았던 ‘웨이크업 콜(특정 키워드를 말하면 기기가 실행되는 기능)’이 지금은 대부분의 스마트 기기에 사용되고 있는 것처럼, 음성합성 기술의 가능성은 무궁무진하다고 보는 것이다. 특히 최근 2, 3년간 국내에서 관련 연구가 폭발적으로 증가하고, 음성합성 분야에 인재들이 몰려들고 있는 것은 “좋은 신호”라고 했다.
그러나 한편으로 AI 음성합성 기술은 범죄 악용 가능성이 높아 우려의 목소리도 크다. 유명인 목소리를 합성해 루머를 사실처럼 퍼뜨리거나, 지인 목소리를 이용해 보이스피싱에 악용할 수 있다. 실제 2016년 미국에서는 어머니 목소리로 합성된 음성으로 전화를 걸어와 은행 비밀번호를 요구한 사례도 있었다.
김 대표는 “모든 신기술은 위험성을 내포하고 있다”면서 “그것이 어떻게 극복되는지는 사회적 합의와 성숙도에 달려 있는 것”이라고 강조했다. 예를 들어 마차가 달리던 시절, 새로 등장한 자동차가 위험하다는 이유로 마차 이상의 속도를 내지 못하도록 규제했다면 기술 개발의 의미도, 발전도 없었을 것이라는 이야기다. 기술 상용화까지는 시간이 꽤 걸리기 때문에, 남은 시간 동안 사회적 합의를 찾고 기술적으로 대비해야 한다는 게 김 대표의 생각이다.
네오사피엔스가 대안으로 제안한 것은 ‘목소리 검색’ 시스템이다. 글이나 사진을 검색하듯 자신의 목소리가 들어간 모든 콘텐츠를 한 눈에 찾아볼 수 있도록 한다면, 무단 사용을 방지할 뿐만 아니라 목소리 자체를 지식재산권(IP)으로 수익화할 수 있다는 것이다. 김 대표는 “악용은 규제가 아닌 창의적인 기술로 막을 수 있다고 본다”고 말했다.
네오사피엔스의 궁극적인 목표는 ‘사람들의 삶을 바꾸는 기술’이다. 단기적으로는 올해 안에 사람처럼 자연스럽게 말하는 AI를 내놓을 예정이다. 김 대표는 “사람들을 기쁘게 해주는 모든 종류의 AI를 계속해서 연구해나갈 것”이라고 말했다.
곽주현 기자 zooh@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0