LLM에서 LMM 개발 경쟁으로
생성형 인공지능(AI)이 더 똑똑해지고 있다. 글자를 학습하는 것은 물론이고 이미지, 영상, 음성 등 다양한 데이터를 분석하고 추론하는 멀티모달(Multi modal) 기능으로 발전하면서다.
4일 정보기술(IT) 업계에 따르면 지난해 챗GPT 열풍으로 주목받은 생성형 AI의 대규모언어모델(LLM) 개발 경쟁은 대규모멀티모달모델(LMM) 개발 경쟁으로 진화하고 있다. 텍스트 분석에 기반을 둔 LLM과 달리 LMM은 이미지, 영상, 음성 등 복잡한 데이터를 분석한다. 생성형 AI가 탄생한 지 불과 1년여 만에 AI 기술 트렌드에 변화가 있는 셈이다.
멀티모달 AI 시대가 열리면 생성형 AI는 한층 더 '인간처럼 사고하고 판단할 수 있는 능력'을 갖추게 된다. 예를 들면 생성형 AI에 글자로 명령어를 입력하는 대신 인물사진 속 표정이나 복잡하고 방대한 그래프가 있는 이미지 등도 인식해서 분석하기 때문이다.
멀티모달 AI 분야에서도 '챗GPT의 아버지'인 오픈AI가 한발 앞서 있다. 오픈AI는 지난해 3월 연산이 가능한 'GPT-4'를 공개했고 9월엔 챗GPT에 음성과 이미지 기능을 추가했다. 구글은 'GPT-4'에 맞서기 위해 멀티모달로 설계된 차세대 AI 모델 '제미나이'를 지난달 공개했다. 제미나이는 특히 수학 문제를 풀거나 추론하는 능력을 갖췄다. 다만 구글은 멀티모달 파운데이션 모델 공개는 미뤘다. 이미지를 식별하는 수준을 넘어 추론과 응용이 가능한 셈이다. 아마존도 이미지 분석이 가능해 기업 광고 이미지 제작 등에 활용할 수 있는 멀티모달 모델인 '타이탄 이미지 생성기'를 내놨다.
국내 기업들도 멀티모달 특성을 지닌 AI 서비스 개발에 한창이다. LG AI연구원의 멀티모달 모델 '엑사원 2.0'이 대표적이다. 한국어와 영어를 동시에 이해할 수 있는 이중언어 모델이고 이미지도 학습·분석한다. 네이버도 하이퍼클로바X의 이미지, 영상 등 분석에 멀티모달 기능을 강화하고 있다. SK텔레콤도 '에이닷(A.)'에 멀티모달 인식 기능을 추가해 고도화하고 있다.
"멀티모달 발전할수록 더 똑똑해진 AI 가능"
멀티모달 AI가 각종 기기와 결합됐을 때의 파급력도 관심거리다. 2011년 디지털 개인 비서인 '시리(Siri)'를 내놨던 애플은 최근 LMM이자 이미지 분석과 답변 생성에 특화된 페럿(Ferret)과 디지털 아바타를 생성하는 휴먼 가우시안 스플랫 관련 논문을 선보였다. IT 업계에서는 이를 두고 애플이 멀티모달 기능이 활성화된 AI 개발에 공을 들이고 있는 것으로 보고 있다. 이렇게 되면 AI 챗봇이 인간처럼 사물을 보고 이해하는 능력을 갖춰 인간과 좀 더 닮은 비서 역할을 대체할 수 있다.
AI가 멀티모달 방식으로 인간과 소통하는 방식을 우려하는 목소리도 나온다. 생성형 AI의 가장 큰 단점은 할루시네이션(환각) 현상. 멀티모달도 거짓 정보를 알아차리지 못하고 공격적 답변을 내놓을 가능성을 줄이지 못하고 있기 때문이다. 구글도 제미나이 공개 당시 "챗봇 바드가 정확하지 않은 정보를 제공할 수 있다"며 "반드시 더블 체크가 필요하다"고 주의를 당부했다.
이 때문에 멀티모달 개발 경쟁의 승자는 '정확성'이 가를 것이란 전망이 많다. IT 업계 관계자는 "생성형 AI 개발 초기만 해도 기술을 먼저 선보이는 게 우선이었지만 최근에는 할루시네이션 문제 등이 나오면 출시 시점을 미루는 분위기"라고 말했다.
기사 URL이 복사되었습니다.
댓글0