읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기 닫기
"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

알림

"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

입력
2019.09.05 18:03
0 0
이주열 LG CNS AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. LG CNS 제공
이주열 LG CNS AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. LG CNS 제공

사람이 언어를 배우기 위해서는 해당 언어를 많이 보고 들어야 하는 만큼, 인공지능(AI)이 똑똑해지기 위해서는 학습용 표준데이터가 많이 필요하다. 한국어를 이해하고 말하는 AI를 만들기 위해서는 학습을 위해 잘 가공된 한국어 데이터가 많을수록 좋은 셈이다. 그러나 데이터 수집에 시간과 비용이 많이 드는 만큼, 스스로 모은 한국어 학습용 표준데이터를 선뜻 내놓은 곳은 없었다. 다양한 표준데이터가 쌓여있는 영어에 비해 한국어 AI 발전 속도가 느린 이유다.

국내 AI 생태계 발전을 위해 지난해 12월 최초로 한국어 표준데이터 7만개를 공개한 LG CNS가 이번에는 새로운 표준데이터 10만개를 담은 ‘코쿼드2.0’을 추가로 공개했다. 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했던 국내 AI 개발자들은 지난해 표준데이터 무료 공개 직후 폭발적인 반응을 보인 바 있다. LG CNS 관계자는 “네이버ㆍ카카오 등 국내 유수 AI기술 기업들과 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서기도 했다”고 말했다.

/코쿼드2.0으로 학습한 AI는 기존보다 더 긴 답변이 가능해진다. 예를 들어 지난해 공개된 ‘코쿼드1.0’으로 학습한 AI가 “대한민국의 수도는?”이라는 질문에 “서울특별시입니다”라고 대답하는 데 그쳤다면, 이번 코쿼드2.0으로 학습한 AI는 “서울특별시의 특징은?”이라고 물었을 때 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 대한민국의 수도입니다”라는 답변이 가능하다. 표나 리스트 형태에 담긴 정보도 무리 없이 읽어낼 수 있다.

LG CNS의 표준데이터 공개는 자사 AI 수준을 높이는 것을 넘어 AI 연구자들간의 시너지를 통해 국내 AI 기술 전체 수준을 높인다는 데 의미가 있다. 코쿼드2.0은 웹사이트에서 누구나 무료로 다운로드가 가능하다. 현신균 LG CNS 최고기술책임자(CTO)는 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 업계 전체에 개방해 국내 AI 연구자간 상생을 위한 개방형 생태계 조성에 기여할 것”이라고 말했다.

곽주현 기자 zooh@hankookilbo.com

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.