목소리의 주파수 파형 분석
연이은 세 단어로 의미 추론
발음사전 데이터도 중요 자료
녹음된 문장 트는게 아닌
딥러닝 통한 합성음 만들어
박명수 성대모사하는 AI도 등장
지난 4월 캐나다 밴쿠버에서 열린 미국 비영리재단이 운영하는 ‘TED 강연’ 강단에 선 수파손 수와자나콘 구글 브레인 과학자는 화면에 버락 오바마 전 미국 대통령의 연설 영상 4개를 틀었다. 목소리도, 얼굴도 영락없는 오바마 전 대통령이었지만 그는 “모두 가짜”라고 했다. 실제 연설 영상에서 턱과 입술, 치아의 움직임을 그래픽으로 고쳐 입 모양을 바꿨고 목소리는 평소 오바마 전 대통령의 음성과 비슷하게 꾸며낸 것이었다. 유튜브에는 스타트업 네오사피엔스가 올린 ‘한국말 하는 트럼프’ 영상도 있다. 도널드 트럼프 미국 대통령 특유의 말투로 한국어를 구사하는 영상이다. 전ㆍ현직 미국 대통령의 목소리를 흉내 낸 건 인공지능(AI)이다. 내가 하는 말을 알아듣는 정도인 줄만 알았던 AI가 유명인의 성대모사까지 가능한 수준으로 발전되고 있다. AI의 말문이 트이기 시작했다.
AI 스피커에 말을 하면 1초도 안 돼 대답이 돌아오지만, 그 짧은 시간 동안 AI는 상당히 바쁜 작업을 한다. 사람의 목소리를 AI가 이해할 수 있는 말로 바꾸고 뜻을 알아낸 뒤 필요한 답을 찾아내고, 그 답을 다시 목소리로 들려주는 과정이 눈 깜짝할 새 진행된다. 이 과정은 크게 말귀를 알아듣는 ‘음성인식’과 알맞은 대답을 찾아 들려주는 ‘음성합성’으로 나뉜다.
우선 음성인식을 제대로 하기 위해선 정교한 ▦음향모델 ▦언어모델 ▦발음 사전이 AI 머릿속에 있어야 한다. 음향모델은 사람 목소리의 주파수, 파형 등의 정보가 어떤 음소(뜻의 차이를 가져오는 말소리의 최소 단위)와 가까운지 분석한다. ‘음악’이란 발음을 듣고 ‘ㅇ’ ‘ㅡ’ ‘ㅁ’ ‘ㅇ’ ‘ㅏ’ ‘ㄱ’으로 추론하는 것이다.
하지만 사람의 성별 나이 말투 등에 따라 발음이 제각각이어서 정확한 단어를 찾기 어려울 수가 있다. 그래서 같이 활용되는 게 언어모델로, 앞뒤 단어를 보고 가장 확률이 높은 단어를 찾아낸다. “신나는 음악 틀어줘” 문장에서처럼 ‘신난다’와 ‘틀다’ 사이의 단어로는 음악이 가장 어울린다는 결론을 내리게 된다. AI는 보통 음성인식을 위해 이처럼 연달아 발음되는 단어를 3개씩 같이 듣고, 음향모델과 음성모델 내용을 끊임없이 추가해 가며 정확도를 높인다. 텍스트에 대한 발음 방법을 정리해 둔 발음 사전도 참고하는데, ‘2NE1’ 발음은 ‘이엔이일’이 아니라 ‘투애니원’이라고 약속돼 있다는 데이터들이 발음사전에 모아져 있다.
음성인식이 끝나면 그제야 AI는 목소리를 “신나는 음악 틀어줘”라는 텍스트로 변환한 상태다. 이 텍스트가 어떤 의미인지 해석하기 위해 형태소(뜻을 가진 가장 작은 말의 단위) 분석에 들어간다. 형태소 데이터가 풍부할수록 말의 주제나 의도를 정확하게 파악할 수 있는데, 보통 수백만 개 상당의 형태소 정보가 활용된다. 어떤 명령인지 이해가 끝난 AI는 “방탄소년단 노래 틀어드릴게요”라고 말하면서 노래를 찾아 재생시킨다. 이 모든 과정이 1초 이내에 끝난다.
여기에서 AI가 “방탄소년단 노래 틀어드릴게요“라고 발음하는 게 음성합성 단계다. AI 스피커가 뱉는 부드러운 목소리는 이미 녹음된 문장을 찾아 트는 게 아니다. 누군가의 음성 정보를 활용해 해당 문장을 최대한 자연스럽게 발음하는 것이다. 보통 성우 목소리가 활용되는데, 어떤 음소가 갖는 음의 높낮이, 길이 등 기본 정보를 바탕으로 성우가 낼법한 음을 합성해 내보내게 된다. 성우 목소리와 비슷하게 내보내기 위해 AI는 대략 40시간 분량의 음성을 성우가 두 달 정도에 걸쳐 녹음한 파일을 학습한다. 오바마 전 대통령이나 트럼프 대통령을 흉내 내는 목소리도 인터넷에 공개된 두 사람의 목소리를 합성해 탄생했다.
음성합성 기술은 짧은 음성 파일 분량만으로도 자연스러운 합성음을 만들어 낼 수 있는 쪽으로 나아가는 추세다. 이를 위한 핵심 기술은 ‘딥러닝’(데이터 분류 기술)이다. 딥러닝은 개와 고양이를 구분하지 못하는 AI에 수 만장의 개와 고양이 사진을 학습시키면서 서로 다른 점을 파악하도록 해 나중에는 개와 고양이를 구분하도록 만드는 기술이다. 국내 최초로 박명수를 성대모사 하는 기능을 AI 스피커에 집어넣은 KT의 박재형 AI테크센터 팀장은 “일종의 변조라고 생각하면 이해가 쉽다”고 설명했다. 그는 “짧은 분량의 박명수 목소리에서 억양, 말투, 습관 등을 AI가 뽑아내는 것”이라며 “방대한 양의 다른 사람들 목소리와 박명수 목소리를 AI가 비교하면서 특징을 빠르게 추출하고, 그 특징에 맞게 발음 데이터를 바꿔 마치 박명수가 말하는 것처럼 어떤 문장이든 소리 낼 수 있게 된다”고 말했다.
정보기술(IT) 업계가 이 음성합성 기술에 주목하는 이유는 개인화 서비스를 내놓기 위해서다. 음성합성 기술이 더 발전되면 AI가 좋아하는 연예인의 목소리가 매일 아침 깨워주고 엄마 아빠의 목소리로 아이들에게 동화책을 읽어줄 수 있다. 음성합성 딥러닝에 드는 시간도 빠르게 단축되고 있다. 지난 7월 네이버 테크포럼 행사장에서 김재민 음성합성 리더는 “40~100시간 분량의 음성이 필요한 다른 업체들과 달리 네이버 기술은 4시간 분량의 녹음 파일만 있으면 목소리를 따라 할 수 있다”고 공개했다.
박재형 팀장은 “학술적으로는 10분만 녹음해도 될 정도로 기반 기술은 마련돼 있다”며 “내년에는 뉴스에 어울리는 목소리, 대화할 때 듣고 싶은 목소리 등 서비스별로 특정 목소리가 활용되는 쪽으로 음성합성이 대중화할 것”이라고 전망했다.
맹하경 기자 hkm07@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0