읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다
알림
알림
  • 알림이 없습니다

업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다

입력
2023.08.14 17:48
0 0

인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.

업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다. LLM은 생성형 AI 개발의 모태가 된다. 1T클럽은 문자, 책, 기사, 보고서, 논문 등 다양한 형태의 우리말 자료를 1억 단어 이상 확보하기 위한 협의체다.

이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다. 오픈AI, 구글, 메타 등 외국 AI업체들이 사용하는 LLM은 외국어 중심이어서 우리말 정보가 부족하다. 오픈AI가 만든 생성형 AI 'GPT-3'는 우리말 데이터가 약 1억 개로, 전체 데이터의 0.02%에 불과하다.

김성훈 업스테이지 대표. 업스테이지 제공

김성훈 업스테이지 대표. 업스테이지 제공

이 업체는 우리말 데이터 확보를 위해 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 긴밀한 협의를 진행 중이다. 또 다양한 AI 관련업체들과 우리말 LLM 발전을 위해 협력할 방침이다.

이를 위해 1T클럽에 참여하는 협력사들에게 데이터 제공량에 비례해 AI 개발을 위한 연결도구(API) 이용료를 할인해 주고 LLM의 API 사업으로 창출되는 수익을 공유할 예정이다. 김성훈 업스테이지 대표는 "LLM은 생성형 인공지능의 핵심 기술"이라며 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 한국형 LLM을 개발해 국내 많은 기업이 AI발전의 수혜를 볼 수 있도록 하겠다"고 강조했다.

최연진 IT전문기자

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.