"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

입력: 2019.09.05 18:03

0 0

이주열 LG CNS AI빅데이터연구소장이 코쿼드2.0을 소개하고 있다. LG CNS 제공

사람이 언어를 배우기 위해서는 해당 언어를 많이 보고 들어야 하는 만큼, 인공지능(AI)이 똑똑해지기 위해서는 학습용 표준데이터가 많이 필요하다. 한국어를 이해하고 말하는 AI를 만들기 위해서는 학습을 위해 잘 가공된 한국어 데이터가 많을수록 좋은 셈이다. 그러나 데이터 수집에 시간과 비용이 많이 드는 만큼, 스스로 모은 한국어 학습용 표준데이터를 선뜻 내놓은 곳은 없었다. 다양한 표준데이터가 쌓여있는 영어에 비해 한국어 AI 발전 속도가 느린 이유다.

국내 AI 생태계 발전을 위해 지난해 12월 최초로 한국어 표준데이터 7만개를 공개한 LG CNS가 이번에는 새로운 표준데이터 10만개를 담은 ‘코쿼드2.0’을 추가로 공개했다. 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했던 국내 AI 개발자들은 지난해 표준데이터 무료 공개 직후 폭발적인 반응을 보인 바 있다. LG CNS 관계자는 “네이버ㆍ카카오 등 국내 유수 AI기술 기업들과 현업 종사자 등 50여개 팀이 코쿼드를 사용한 AI 개발에 나서기도 했다”고 말했다.

/코쿼드2.0으로 학습한 AI는 기존보다 더 긴 답변이 가능해진다. 예를 들어 지난해 공개된 ‘코쿼드1.0’으로 학습한 AI가 “대한민국의 수도는?”이라는 질문에 “서울특별시입니다”라고 대답하는 데 그쳤다면, 이번 코쿼드2.0으로 학습한 AI는 “서울특별시의 특징은?”이라고 물었을 때 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 대한민국의 수도입니다”라는 답변이 가능하다. 표나 리스트 형태에 담긴 정보도 무리 없이 읽어낼 수 있다.

LG CNS의 표준데이터 공개는 자사 AI 수준을 높이는 것을 넘어 AI 연구자들간의 시너지를 통해 국내 AI 기술 전체 수준을 높인다는 데 의미가 있다. 코쿼드2.0은 웹사이트에서 누구나 무료로 다운로드가 가능하다. 현신균 LG CNS 최고기술책임자(CTO)는 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 업계 전체에 개방해 국내 AI 연구자간 상생을 위한 개방형 생태계 조성에 기여할 것”이라고 말했다.

곽주현 기자 zooh@hankookilbo.com

당신이 관심 있을 만한 이슈

흰색 배경
검은색 배경

0 / 250

좋아요순 최신순 새로고침

한국일보에
로그인하면 다양한
편의 기능을
제공 받을 수 있습니다.

내 관심사대로 메인뉴스 설정
구독한 콘텐츠 모아보기 제공
주요기사와 추천, 활동내역 알림

아이디 또는 비밀번호를 잘못 입력했습니다.(연속 1회)
아래 이미지를 보이는 대로 입력해주세요.

스피커로 들리는 내용을 숫자로 입력해 주세요.
- 새로고침
- 음성으로 듣기
- 새로고침
- 이미지로 보기
로그인 유지

전체동의 (선택포함)

한국일보 이용약관 (필수)

내용보기

개인정보처리 방침 (필수)

내용보기

이벤트/프로모션 등 정보 수신 동의 (선택)

이메일
SMS

한국일보가 제공하는 다양한 형태의 이벤트 및 행사(포럼, 대회, 강연, 시상, 수상, 구독 등) 관련한 참여 정보를 추천·안내

이용약관 및 개인정보 처리 방침은 필수 항목 입니다.

선택 항목 미동의 시 뉴스 추천서비스 혹은 이벤트/행사 당첨 혜택에서 제외될 수 있습니다.

"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

당신이 관심 있을 만한 이슈

LIVE ISSUE

댓글0

"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

이 기사와 관련된 기사

당신이 관심 있을 만한 이슈

경제 많이 본 뉴스

LIVE ISSUE

댓글0

"AI 생태계 위해"... LG CNS, 한국어 AI 표준데이터 10만개 무료 개방

보내는 분