전통적 음향 기기 업체나 미디어 기업이 아닌 정보통신기술(ICT) 기업들은 4차산업혁명의 핵심 기술로 ‘인공지능(AI)’이 부상하면서 ‘오디오’에 주목하기 시작했다. AI는 인간의 뇌를 모방해 인간처럼 학습하고 추론하고 깨닫는 컴퓨터 프로그램의 일종이다. 현재의 기술 수준은 사람의 한계를 뛰어넘는 방대한 양의 데이터를 순식간에 분석하고 이해할 수 있는 AI로 나아가는 과정이고, 대중에게 모습을 드러낸 첫 결과물이 인간의 명령을 이해하고 원하는 답을 찾아주는 ‘AI 비서’다. AI 비서와 사람이 소통하는 도구가 바로 ‘음성 인터페이스’ 즉, 오디오다.
ICT 기업들은 음성이 터치나 타이핑보다 훨씬 직관적이고 빠르게 명령을 전달하는 수단으로 보고 있다. 시장조사업체 컴스코어는 2023년 구글 검색의 절반 이상이 타이핑이 아닌 음성으로 이뤄질 것이라고 전망했고, 퓨처소스 컨설팅은 2023년까지 히어러블(hear+wearableㆍ귀에 착용할 수 있는 기기) 시장이 730억달러(약 87조4,500억원) 규모로 성장한다고 내다봤다.
아마존, 구글 등 글로벌 기업들이 너도나도 AI 서비스의 실물 제품으로 마이크가 달린 ‘AI 스피커’를 선택한 것도 같은 맥락이다. 스피커의 특성상 AI 스피커에 탑재되는 콘텐츠들은 음악, 뉴스 등이었고, 더 다양한 ‘들을 거리’를 확보하기 위한 경쟁이 오디오 콘텐츠에 대한 관심으로 이어졌다는 분석이다. 자율주행차 시대를 맞아 차량용 인포테인먼트(정보ㆍ미디어 시스템)에도 오디오 콘텐츠가 적합하다는 공감대가 형성되면서 오디오 콘텐츠 확보 경쟁은 갈수록 치열해지고 있다.
당장 현실화가 어려운 기술에 직관성이 높은 오디오를 접목해 상용화를 앞당기는 사례도 있다. 현실 세계 위에 가상 이미지를 덮어씌우는 증강현실(AR)은 차세대 기술로 주목 받은 지 오래이지만 가상 이미지를 시각적으로 띄워 주는 하드웨어를 안경처럼 간편하게 쓰고 벗는 형태로 만드는 것은 아직 기술적인 어려움이 있다. 그래서 등장한 게 ‘오디오 AR’이다. 이용자의 현재 위치와 바라보고 있는 방향 등을 감지한 뒤 관련 정보를 시각 요소 대신 음성으로 안내하는 기술인데, 미국 ‘보스’ 등이 도입했다. 정면에 음식점이 있다면 메뉴를, 하늘을 올려다본다면 날씨를 들려주는 식이다.
문자와 음성 간 변환을 다루는 TTS(Text To Speechㆍ문자를 음성으로 변환), STT(Speech To Textㆍ음성을 문자로 변환) 등의 기술도 주목 받고 있다. 지금은 글을 입력하면 유명인이나 가족의 목소리로 읽어주는 기술 정도가 상용화돼 있다. 앞으로는 블로그 등에 퍼져 있는 각종 문자 기반 정보들을 오디오화해 원하는 정보를 들려 주거나 오디오로 들었던 내용을 문자로 메모하는 등 오디오 콘텐츠 생태계를 풍부하게 만들 다양한 기능들이 도입될 전망이다.
맹하경 기자 hkm07@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0