지난 14일 세상을 떠난 영국의 물리학자 스티븐 호킹(Stephen Hawking) 박사는 기관지 감염으로 음성을 잃어 얼굴 근육으로 작동되는 센서로 컴퓨터에 문자를 입력하고 이를 음성 합성기로 목소리 변환을 시켜 사람들과 대화했다. 스티븐 호킹 합성기는 포먼트 합성기의 일종으로 소리 생성기를 이용해 성대(聲帶)를 모방하고, 개별적 소리의 주파수 스펙트럼 분포인 포먼트의 공명 장치를 이용해 성도(聲道), 즉 성대로부터 입술까지의 발성기관을 모방해 합성음을 만들어낸다.

음성 합성 기술은 나날이 발전해 요즘은 성우의 목소리를 미리 녹음해 짧은 음성 분절들을 대량으로 저장한 음편(音片) 데이터베이스를 구축한 후 입력된 문장에 따라 음편을 편집해 합성음을 생성한다.

그러나 아직은 사람이 낭독하는 것과 같은 자연스러운 합성음을 만들어 내지 못하는데, 문제는 컴퓨터가 입력된 문장에서 끊어 읽을 어절의 경계를 자동으로 추정해 처리하는 과정에서 자연스럽게 끊어 읽기를 하지 못하는 데 있다.

예를 들어 ‘새 학기’의 ‘새’와 ‘천 원’의 ‘원’은 각각 관형사와 의존명사로서 독립된 품사이기 때문에 다른 명사와 띄어 쓰지만 사람이 발음할 때는 한 단위로 이어서 읽는다. 그러나 음성 합성기는 이를 따로 끊어서 발음해 어색한 느낌을 주는데, 그래서 요즘은 아예 ‘새 학기’, ‘천 원’ 등을 한 단위로 이어 발음한 음편들을 데이터베이스에 저장해 이를 합성하기도 한다.

그러나 여전히 문장의 구나 절의 경계를 처리하는 데는 한계가 있는데, 앞으로 인공지능이 문장의 내용까지 파악해 스스로 끊어 읽기를 조절할 수 있다면 사람의 음성 못지않은 합성음을 만들어낼 수 있을 것이다.

유지철 KBS 아나운서

인기 기사

web_cdn 저작권자 © 한국일보 무단전재 및 재배포 금지

오피니언 최신기사