전화 걸고 검색 대신해 줄 때
대화 쌓일수록 행동 정확해져
내비게이션, 스피커, IPTV 등
기업마다 다양한 통로로 음성 확보
가공-보존 등 법 테두리는 아직
요즘 국내 기업들이 선보이는 ‘음성인식 인공지능(AI) 서비스’는 이름만 대면 알아서 상대에게 전화를 걸고, 키워드 몇 개만으로도 원하는 영화를 찾아주는 수준까지 발전했다. 이런 서비스가 가능한 것은 무선 인터넷으로 연결된 방대한 데이터 저장장치(클라우드)가 있기 때문이다.
그런데 서비스 사용자의 대화는 동시에 또 클라우드에 차곡차곡 저장된다. 이를 가공ㆍ분석한 ‘음성 빅데이터’가 AI를 더 학습시키고 새 서비스를 개발하는데 재활용되는 구조인 셈이다. AI 플랫폼을 선보인 기업들이 이구동성으로 “우리 플랫폼을 많이 사용할수록 똑똑해진다”고 주장하는 이유이기도 하다.
음성 빅데이터가 정보통신기술(ICT) 업계의 미래 핵심자산으로 떠오르고 있다. 음성 데이터를 쉽고 빠르게 확보할 수 있는 AI 플랫폼을 확산시키려는 국내 기업들의 경쟁도 본격화되는 양상이다.
28일 업계에 따르면 2016년 9월 SK텔레콤이 ‘누구’로 포문을 연 국내 AI 플랫폼 시장은 지난해 KT(기가지니)와 삼성전자(빅스비), 네이버(클로바), 카카오(카카오i) 등이 잇따라 뛰어들며 급속히 커졌다.
SK텔레콤은 지난해 가을 자사 내비게이션 T맵에 누구를 결합한 데 이어, 최근 누구의 음성인식 기능을 강화했고 자회사 SK브로드밴드 B tv 셋톱박스에까지 누구를 결합했다.
지난해 1월 IPTV 셋톱박스 일체형 스피커 ‘기가지니’를 출시해 가입자 50만명을 모은 KT는 같은 해 11월 휴대용 스피커 ‘기가지니LTE’를 내놓으며 영역을 넓혔다. 후발주자인 네이버와 카카오는 스피커 출시와 자체 서비스 연동, 다른 기업과의 협력을 통해 사용자를 늘려가고 있다. 이는 모두 다양한 플랫폼을 통해 조금이라도 음성 자료를 더 모아보려는 노력의 일환이다.
하지만 이렇게 클라우드에 쌓아 놓는 사용자들의 모든 대화가 데이터 측면에서 유의미한 것은 아니다. 요즘 업계에서는 사전에 학습시킨 내용에서 벗어난 AI의 ‘엉뚱한’ 돌발 답변에 특히 주목한다. 음성인식 스타트업 관계자는 “사용자의 요구에 어긋나는 돌발 답변을 이끌어 낸 대화 내용이 무엇인지 파악하는 것은 필수적”이라며 “잘못된 명령수행도 사람이 지도학습으로 수정해야 한다”고 설명했다.
음성 빅데이터의 중요성이 커지고 있지만 국내에 아직 구체적인 저장 및 가공 범위, 보존기간 등을 정한 기준이 없는 점은 보완 과제다. 기업들은 현재 기존 개인정보보호법과 통신비밀보호법, 지난해 말 방송통신위원회가 발표한 ‘바이오정보보호 가이드라인’ 등에 근거해 플랫폼을 운영 중이다.
SK텔레콤의 경우, 사후서비스를 위해 한 달간 저장한 뒤 이후엔 누구의 대화인지 알 수 없는 비식별 데이터로 전환하고 일정 기간(2년)이 지나면 삭제한다. 반면 네이버는 처음부터 비식별 데이터로 저장하는 등 기업별로 차이가 있다.
음성인식 AI 플랫폼을 선보인 기업들은 서비스 약관에 개인정보 처리와 데이터 보관 기간 등을 명시하지만 그걸 다 읽어보는 사람도 거의 없다. 방송통신위원회 관계자는 “AI 서비스 확산으로 음성 빅데이터 수집이 활발해지고 있는 만큼 개인정보 침해 요소는 없는지 살펴볼 계획”이라고 밝혔다. 김창훈 기자 chkim@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0