
사람이 언어를 배우기 위해서는 해당 언어를 많이 보고 들어야 하는 만큼, 인공지능(AI)이 똑똑해지기 위해서는 학습용 표준데이터가 많이 필요하다. 한국어를 이해하고 말하는 AI를 만들기 위해서는 학습을 위해 잘 가공된 한국어 데이터가 많을수록 좋은 셈이다. 그러나 데이터 수집에 시간과 비용이 많이 드는 만큼, 스스로 모은 한국어 학습용 표준데이터를 선뜻 내놓은 곳은 없었다. 다양한 표준데이터가 쌓여있는 영어에 비해 한국어 AI 발전 속도가 느린 이유다.
국내 AI 생태계 발전을 위해 지난해 12월 최초로 한국어 표준데이터 7만개를 공개한 LG CNS가 이번에는 새로운 표준데이터 10만개를 담은 ‘코쿼드2.0’을 추가로 공개했다. 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했던 국내 AI 개발자들은 지난해 표준데이터 무료 공개 직후 폭발적인 반응을 보인 바 있다. LG CNS 관계자는 “네이버ㆍ카카오 등 국내 유수 AI기술 기업들과 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서기도 했다”고 말했다.
/코쿼드2.0으로 학습한 AI는 기존보다 더 긴 답변이 가능해진다. 예를 들어 지난해 공개된 ‘코쿼드1.0’으로 학습한 AI가 “대한민국의 수도는?”이라는 질문에 “서울특별시입니다”라고 대답하는 데 그쳤다면, 이번 코쿼드2.0으로 학습한 AI는 “서울특별시의 특징은?”이라고 물었을 때 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 대한민국의 수도입니다”라는 답변이 가능하다. 표나 리스트 형태에 담긴 정보도 무리 없이 읽어낼 수 있다.

LG CNS의 표준데이터 공개는 자사 AI 수준을 높이는 것을 넘어 AI 연구자들간의 시너지를 통해 국내 AI 기술 전체 수준을 높인다는 데 의미가 있다. 코쿼드2.0은 웹사이트에서 누구나 무료로 다운로드가 가능하다. 현신균 LG CNS 최고기술책임자(CTO)는 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 업계 전체에 개방해 국내 AI 연구자간 상생을 위한 개방형 생태계 조성에 기여할 것”이라고 말했다.
곽주현 기자 zooh@hankookilbo.com
기사 URL이 복사되었습니다.
댓글0