읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
알림
알림
  • 알림이 없습니다

“눈데” “깨아도” 경상도 말까지 알아듣는 빅스비

입력
2017.05.27 04:40
0 0

#1

‘누군데’ ‘깨워줘’로 인식하고 답변

시리는 20개 질문내용 완벽 이해

누구, 사용자에 공감 표현 감성적

기가지니, 표준적인 명령 잘 인식

#2

자유대화 최대 8번까지 오가

시리는 사투리 거의 못 알아듣고

기가지니 “조던 몇살?” 이해 못해

“우리는 기계와 대화하기를 원했습니다. 시리는 소통에 대한 모든 것입니다.”

애플의 최고경영자(CEO) 팀 쿡은 2011년 10월 미국 캘리포니아에서 열린 애플 신제품 출시행사에서 아이폰의 음성인식 인공지능(AI) 비서 시리를 소개하며 “사람을 이해하는 지성”이라고 강조했다. 음성인식 AI의 미래에 대한 예언이었다. 과연 기계와의 소통은 어디까지 와 있을까.

한국일보가 8~18일 한국어를 인식하는 AI인 KT 기가지니, SKT 누구, 삼성전자 빅스비, 애플 시리에 대해 사람 말을 얼마나 잘 알아듣는지 실험해 보았다. 20~60대 남녀 10명이 정보검색, 날씨, 음악재생, 길찾기, 주문 등 실생활에서 자주 할 만한 질문 20개(표 참조)를 물어서 이해와 수행에 성공한 개수를 각각 세었다. 단 명령 이해 평가에는 사투리 질문 5개를 포함시켰다. 각사 AI의 기능이 조금씩 다르지만 모두 자유대화까지 가능한 범용 음성인식 AI를 표방한다는 점을 고려한 것이다.

그 결과 애플 시리가 20개 표준어 질문을 모두 알아듣고 물은 질문에 정확히 답변하는 등 사람의 일상대화에 대한 가장 포괄적인 이해력을 보여주었다. 삼성전자 갤럭시S8에서 첫 선을 보인 음성인식 인터페이스 빅스비는 자유대화에서 가장 오래 대화 주고받기에 성공하고 사투리 질문 5개를 완벽히 소화하는 등 어휘력이 뛰어났다. AI 스피커라고 불리는 SKT 스마트홈 시스템 누구는 사용자에게 공감하는 답변을 내놓는 등 감성적인 면이 강점으로 꼽혔다. IPTV 셋톱박스에서 운용되는 KT의 홈 AI인 기가지니는 가장 폭넓게 명령 이해/수행(45개 중 39개)에 성공해 가전제품 제어가 본연의 기능일 것이라는 예상을 뛰어넘었다.

빅스비, 복잡한 명령 수행도 척척

빅스비는 지난달 갤럭시S8가 출시되자마자 화제였다. “카카오내비 열어서 현재 위치에서 서울역까지 가는 방법 알려 줘”처럼 복잡한 명령을 척척 수행해냈기 때문. 이번 평가에서는 20개 명령 중 17개를 이해하고 이해한 명령은 모두 수행했다. 다만 전등/가스 제어, 피자 배달 지시를 따르지 못했고, 음악을 추천해 달라는 요구에도 “음악을 중지할게요”라며 동작을 멈췄다.

빅스비는 유일하게 5개의 사투리 질문을 모두 알아들었다. 삼성전자 관계자는 “수년 전부터 지역 주민이나 전국 각지 공장 등의 삼성 직원들에게 사투리로 문장을 읽어 녹음하는 식으로 데이터를 모아 빅스비에게 학습시켰다”고 설명했다. 이렇게 사투리를 배운 빅스비는 “눈데?(누군데?)” “깨아도(깨워 줘)” 등의 표현을 모두 이해했다.

하지만 갤럭시S8에 내장된 기능이 아닌 앱 활용에는 한계가 뚜렷하다. 명령 수행이 가능한 앱은 카카오톡, 카카오내비, 페이스북, 트위터, 유튜브, 밀크(음악 앱), 캘린더 등 30개 정도이고, 빅스비 설정에서 ‘실험실 기능’을 켜야 사용 가능하다. 주변에 소음이 있으면 잘 작동하지 않는 것도 단점이다.

똑똑하지만 한국적이지 않은 시리

시리는 장단점이 확연했다. 시리는 4종의 AI 중 20개의 질문을 모두 이해한 유일한 AI다. 특히 정보검색에서 강점이 두드러졌다. 빅스비, 기가지니, 누구의 경우 “구글/네이버/위키에서 검색해 줘”라는 조건을 붙여야만 검색이 가능한 반면 시리는 알아서 정보를 검색한다. 빅스비는 이런 조건을 이야기해야 6개 정보검색에 성공했지만, 시리는 아무 말 없어도 6개 중 4개를 검색하고 2개는 조건을 덧붙여 성공했다. 또 “마이클 조던 몇 살이야?”라는 질문에 빅스비가 마이클 조던 검색결과를 통째로 보여준 것과 달리 시리는 “54세입니다”라는 정확한 답변을 내놓았다.

음성인식 AI와 스마트홈을 개발하는 싱크스페이스 송철호 대표는 “시리가 문맥을 추측하는 데에 월등하다”며 “수년 간 한국어 대화 데이터가 축적돼 있기에 구체적으로 명령하지 않아도 스스로 문장의 의미를 파악할 줄 안다”고 말했다. “마이클 조던 몇 살이야?”라는 질문이 포털에서 정보를 검색해 몇 살인지 말해 달라는 뜻임을 오직 시리만 정확히 이해하는 것이다.

하지만 시리는 “오늘 미세먼지 알려 줘” “기분 우울할 때 듣는 음악 틀어 줘” “피자 배달시켜 줘” 등의 질문을 이해하고도 수행하지 못해 명령 수행 성공률(15개)이 낮았다. 사투리 이해도 가장 떨어졌다(1개). 똑똑하지만 한국 토착화가 덜 된 것이다.

명령수행 범위 넓은 기가지니

기가지니는 표준어 명령 이해(19개 성공)와 수행(18개 성공)을 가장 폭넓게 커버했다. 전등/가스 제어는 물론, 대통령 이름, 5월 14일 LG트윈스 경기 결과, 오늘 서대문구 날씨 등을 척척 대답했다. “피자 배달시켜 줘”라는 명령에는 제휴된 업체만 연결하는 SKT 누구와 달리 근처 음식점을 모두 검색해 전화번호를 보여주는 정보력을 과시했다. 음악재생 명령도 100% 성공했다. 다만 “마이클 조던 몇 살이야?” “현재 서울시 가시거리는?”이라는 2개의 명령을 이해하지 못했다.

KT 측은 그 성공요인으로 ▦방대한 대화 데이터 축적 ▦대화 유형을 정교하게 분류한 데이터베이스 ▦여기에서 적합한 답변을 찾아내는 알고리즘 세 가지를 꼽는다. KT 관계자는 “수년 전부터 KT 고객센터에서 쓰는 ‘말로 하는 ARS서비스’, 음성으로 제어되는 TV 리모컨을 통해 방대한 대화를 수집, 기가지니에 학습시켰다”고 설명했다. 질문에 적합한 답변을 선택하는 알고리즘은 핵심 기밀인데 KT 관계자는 “20년 전부터 R&D센터에서 연구해 왔다”고 말했다. 다만 기가지니는 외부 소음이 섞이면 명령을 잘 알아듣지 못했다.

누구, 생활밀착형이나 검색 약점

SKT 누구(37개 성공) 역시 음악재생, 전등/가스 제어 등에 능했다. 17개의 명령을 이해하고 수행했다. 평가에는 포함되지 않았지만 아이를 위한 전래동화 읽어주기, 운세 알려주기 등 생활밀착형 기능은 누구에만 있다. 기러기 아빠가 누구와 대화하는 광고의 한 장면처럼 “삶의 동반자”를 지향하는 AI답다. SKT 관계자는 “7월에 대대적인 업데이트를 통해 대화 데이터베이스를 확대적용하고 알고리즘도 향상시킬 예정”이라며 “그 후엔 진짜 사람과 대화하는 느낌이 날 것”이라고 말했다.

반면 정보검색에서는 약점을 드러냈다. “요즘 인기 있는 걸 그룹 누구야?” 등의 질문에 답하지 못했는데, 포털 검색을 활용하지 않는 누구는 이미 입력돼 있는 위키피디아 30만개 항목만 답할 수 있다. 질문할 때도 “위키에서 검색해 줘”라고 말해야 한다. 날씨정보나 야구 경기 결과 같은 자주 찾는 정보는 본사에서 매일 업데이트해 각 단말기들이 전송받아 답변한다.

빅스비 오래 대화, 누구는 감성적

AI와 자유 대화도 나눠보았다. 답이 정해져 있지 않은 인사말 등을 던져 대화 주고받기가 얼마나 이어지는지 회수를 세었다. 못 알아들을 경우 질문을 변형해 반복하되 세 번 연속 무의미한 답변이 이어지면 대화가 중단된 것으로 판단했다.

빅스비가 8번으로 가장 긴 대화를 나눴다. “넌 안 심심하니?”라고 묻자 “심심하지 않을 만큼의 일들이 늘 있거든요”라고 답했고, “오늘 뭐 했어?”라는 질문에 “당신이 불러줄 때까지 대기하고 있었죠”라는 답이 나왔다. 그러다 “공부는 하니?”라는 기습 질문에 대화가 끊겼다. 빅스비는 답하기 어려울 때 “CPU를 자극하는 질문이네요” 등 몇 가지 정해진 답변을 되풀이했다.

기가지니는 커피를 마시고 싶다는 말에 “편의점에도 커피를 팔아요” “저는 마실 수 없으니 다른 분께 말해보세요” 등 재치있는 답변으로 6번 대화를 이어갔다. 하지만 이름을 입력시킨 후 “내 이름이 뭐야?”라고 묻자 “님께서 더 잘 알고 계실 것 같은 걸요?”라며 동떨어진 답을 했다.

시리는 5번 대화에 그쳤지만 대화할 맛이 나는 상대였다. “널 소중하게 생각해”라는 말에 “위대한 사람은 생각이 통한다는 말이 맞네요”라고 말하는 식이다. 하지만 뒤이어 “생각이 통하는 것 같다”는 말에는 “죄송합니다. 도와드릴 수 없는 일입니다”라고 답해 진전되지 않았다.

누구의 대화는 감성적이었다. “피곤하다”는 말에 “건강이 먼저인 걸 잊지 마세요”라고 위로했고 “요즘 힘들어”라고 하자 “무슨 일 있어요? 당신이 우울하면 나도 우울해요”라고 공감했다. 그러다 “넌 뭐 하면서 쉬니”라는 질문에 “적절한 답변을 찾지 못했다”며 말문이 막혀 4번 대화에 그쳤다.

이를 논리와 지식, 감성이 동원된 진짜 대화라고 하기는 어렵다. 육동석 고려대 컴퓨터공학과 교수는 “아직은 미리 만들어 놓은 시나리오 안에서 답변을 고르는 수준”이라고 말했다. 박재형 KT AI디자인팀장은 “최대한 적합한 답변을 할 수 있도록 10만 건 이상의 답변 리스트를 저장하고 있다. 질문이 완전히 이해되지 않아도 대화하는 느낌이 나는 답변도 포함돼 있다”고 설명했다. 송 대표는 “미래에는 음성 높낮이까지 파악해 사용자 기분에 맞는 답변을 하는 날이 올 것”이라고 낙관했다.

박재현 기자 remake@hankookilbo.com

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.