텍스트 넘어 이미지·영상도 분석…더 똑똑해진 멀티모달 AI

텍스트 넘어 이미지·영상도 분석…더 똑똑해진 멀티모달 AI

김지현 기자

입력: 2024.01.05 09:00

19면

0 0

LLM에서 LMM 개발 경쟁으로

구글이 인공지능(AI)의 기반이 되는 대규모언어모델(LLM) '제미나이'(Gemini)를 5일 공개했다. 구글 딥마인드 홈페이지 캡처

생성형 인공지능(AI)이 더 똑똑해지고 있다. 글자를 학습하는 것은 물론이고 이미지, 영상, 음성 등 다양한 데이터를 분석하고 추론하는 멀티모달(Multi modal) 기능으로 발전하면서다.

4일 정보기술(IT) 업계에 따르면 지난해 챗GPT 열풍으로 주목받은 생성형 AI의 대규모언어모델(LLM) 개발 경쟁은 대규모멀티모달모델(LMM) 개발 경쟁으로 진화하고 있다. 텍스트 분석에 기반을 둔 LLM과 달리 LMM은 이미지, 영상, 음성 등 복잡한 데이터를 분석한다. 생성형 AI가 탄생한 지 불과 1년여 만에 AI 기술 트렌드에 변화가 있는 셈이다.

멀티모달 AI 시대가 열리면 생성형 AI는 한층 더 '인간처럼 사고하고 판단할 수 있는 능력'을 갖추게 된다. 예를 들면 생성형 AI에 글자로 명령어를 입력하는 대신 인물사진 속 표정이나 복잡하고 방대한 그래프가 있는 이미지 등도 인식해서 분석하기 때문이다.

멀티모달 AI 분야에서도 '챗GPT의 아버지'인 오픈AI가 한발 앞서 있다. 오픈AI는 지난해 3월 연산이 가능한 'GPT-4'를 공개했고 9월엔 챗GPT에 음성과 이미지 기능을 추가했다. 구글은 'GPT-4'에 맞서기 위해 멀티모달로 설계된 차세대 AI 모델 '제미나이'를 지난달 공개했다. 제미나이는 특히 수학 문제를 풀거나 추론하는 능력을 갖췄다. 다만 구글은 멀티모달 파운데이션 모델 공개는 미뤘다. 이미지를 식별하는 수준을 넘어 추론과 응용이 가능한 셈이다. 아마존도 이미지 분석이 가능해 기업 광고 이미지 제작 등에 활용할 수 있는 멀티모달 모델인 '타이탄 이미지 생성기'를 내놨다.

국내 기업들도 멀티모달 특성을 지닌 AI 서비스 개발에 한창이다. LG AI연구원의 멀티모달 모델 '엑사원 2.0'이 대표적이다. 한국어와 영어를 동시에 이해할 수 있는 이중언어 모델이고 이미지도 학습·분석한다. 네이버도 하이퍼클로바X의 이미지, 영상 등 분석에 멀티모달 기능을 강화하고 있다. SK텔레콤도 '에이닷(A.)'에 멀티모달 인식 기능을 추가해 고도화하고 있다.

"멀티모달 발전할수록 더 똑똑해진 AI 가능"

생성형 인공지능(AI)이 텍스트를 넘어 이미지, 영상, 음성 분석도 가능한 멀티모달 모델로 진화하고 있다. 게티이미지뱅크

멀티모달 AI가 각종 기기와 결합됐을 때의 파급력도 관심거리다. 2011년 디지털 개인 비서인 '시리(Siri)'를 내놨던 애플은 최근 LMM이자 이미지 분석과 답변 생성에 특화된 페럿(Ferret)과 디지털 아바타를 생성하는 휴먼 가우시안 스플랫 관련 논문을 선보였다. IT 업계에서는 이를 두고 애플이 멀티모달 기능이 활성화된 AI 개발에 공을 들이고 있는 것으로 보고 있다. 이렇게 되면 AI 챗봇이 인간처럼 사물을 보고 이해하는 능력을 갖춰 인간과 좀 더 닮은 비서 역할을 대체할 수 있다.

AI가 멀티모달 방식으로 인간과 소통하는 방식을 우려하는 목소리도 나온다. 생성형 AI의 가장 큰 단점은 할루시네이션(환각) 현상. 멀티모달도 거짓 정보를 알아차리지 못하고 공격적 답변을 내놓을 가능성을 줄이지 못하고 있기 때문이다. 구글도 제미나이 공개 당시 "챗봇 바드가 정확하지 않은 정보를 제공할 수 있다"며 "반드시 더블 체크가 필요하다"고 주의를 당부했다.

이 때문에 멀티모달 개발 경쟁의 승자는 '정확성'이 가를 것이란 전망이 많다. IT 업계 관계자는 "생성형 AI 개발 초기만 해도 기술을 먼저 선보이는 게 우선이었지만 최근에는 할루시네이션 문제 등이 나오면 출시 시점을 미루는 분위기"라고 말했다.

김지현 기자 hyun1620@hankookilbo.com

당신이 관심 있을 만한 이슈

흰색 배경
검은색 배경

0 / 250

좋아요순 최신순 새로고침

한국일보에
로그인하면 다양한
편의 기능을
제공 받을 수 있습니다.

내 관심사대로 메인뉴스 설정
구독한 콘텐츠 모아보기 제공
주요기사와 추천, 활동내역 알림

아이디 또는 비밀번호를 잘못 입력했습니다.(연속 1회)
아래 이미지를 보이는 대로 입력해주세요.

스피커로 들리는 내용을 숫자로 입력해 주세요.
- 새로고침
- 음성으로 듣기
- 새로고침
- 이미지로 보기
로그인 유지

전체동의 (선택포함)

한국일보 이용약관 (필수)

내용보기

개인정보처리 방침 (필수)

내용보기

이벤트/프로모션 등 정보 수신 동의 (선택)

이메일
SMS

한국일보가 제공하는 다양한 형태의 이벤트 및 행사(포럼, 대회, 강연, 시상, 수상, 구독 등) 관련한 참여 정보를 추천·안내

이용약관 및 개인정보 처리 방침은 필수 항목 입니다.

선택 항목 미동의 시 뉴스 추천서비스 혹은 이벤트/행사 당첨 혜택에서 제외될 수 있습니다.

텍스트 넘어 이미지·영상도 분석…더 똑똑해진 멀티모달 AI

LLM에서 LMM 개발 경쟁으로

"멀티모달 발전할수록 더 똑똑해진 AI 가능"

당신이 관심 있을 만한 이슈

LIVE ISSUE

댓글0

텍스트 넘어 이미지·영상도 분석…더 똑똑해진 멀티모달 AI

LLM에서 LMM 개발 경쟁으로

"멀티모달 발전할수록 더 똑똑해진 AI 가능"

당신이 관심 있을 만한 이슈

경제 많이 본 뉴스

LIVE ISSUE

댓글0

텍스트 넘어 이미지·영상도 분석…더 똑똑해진 멀티모달 AI

보내는 분