• 페이스북
  • 트위터
  • 유튜브

만능 챗GPT, '숏폼 영상'도 뚝딱…구글은 '제미나이 1.5' 공개

등록 2024.02.16 19:12:45

  • 페이스북
  • 트위터
  • 카카오톡
  • 네이버 블로그
  • 이메일 보내기
  • 프린터
  • PDF
[서울=뉴시스] 오동현 기자 = 이제는 고품질의 동영상 제작을 위해 오랜 시간을 들여 고생하지 않아도 될 것 같다. 생성형 인공지능(AI)이 영상제작까지 단숨에 만들어주는 세상이 왔기 때문이다.
 

AI가 사용자의 텍스트 프롬프트 "청바지와 흰색 티셔츠를 입은 여자가 겨울 폭풍의 남극에서 기분 좋은 산책"에 맞춰 고화질의 동영상을 제작한다.

뿐만 아니라, '베레모와 검은색 터틀넥을 입은 시바견'과 같은 이미지를 프롬프트에 입력하면 움직이는 동영상까지 만들어준다.

챗GPT 개발사 오픈AI는 15일(현지시간) 블로그를 통해 고화질 동영상을 생성하는 AI 모델 '소라(Sora)'를 공개했다. 특히 "소라는 언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다"는 설명을 덧붙였다.

'소라'는 다양한 해상도와 화면 비율의 고화질 동영상을 최대 1분 분량까지 생성할 수 있는 범용 시각 데이터 모델이다. 이를 통해 '소라'는 다양한 디바이스의 기본 화면 비율로 직접 콘텐츠를 제작할 수 있다. 또는 전체 해상도로 생성하기 전에 더 작은 크기의  프로토타입(시제품)으로 콘텐츠를 빠르게 제작할 수도 있다.

'소라'는 사용자의 짧은 프롬프트를 GPT를 활용해 더 길고 상세한 캡션으로 변환한다. 이를 통해 '소라'는 사용자 프롬프트를 정확하게 따르는 고품질 동영상을 생성할 수 있다. 기존의 이미지나 동영상을 프롬프트에 입력할 수도 있다. 이 기능을 통해 소라는 정적인 이미지를 애니메이션으로 구현하거나, 기존 비디오 영상을 확장하는 등 다양한 편집 작업을 수행할 수 있다.

다만 '소라'는 제한된 창작자에 한해 이용 접근이 허용된다고 샘 알트만 오픈AI 최고경영자(CEO)이 소셜미디어 'X(옛 트위터)'를 통해 밝혔다. 오픈AI는 소라를 자사 제품에 통합하기 전에 전문가팀에게 맡겨 안전성 여부를 평가할 계획이라고 전했다.
 

AI 슈퍼앱 탄생하나…챗GPT의 무한 확장

이처럼 오픈AI는 생성형 AI 기술을 더 빠르게 고도화하고 있다. 이제는 사용자와 텍스트·음성 기반의 대화를 넘어서 과거에 나눈 대화 내용까지 기억해낼 정도로 똑똑해졌다. 오픈AI는 '소라'와 마찬가지로, 과거의 기억력을 갖춘 챗GPT 기능을 일부 사용자에 한해 테스트를 진행한다.

나아가 오픈AI는 생성형 AI 기술을 활용한 웹 검색 서비스도 준비 중인 것으로 알려졌다. IT 전문매체 디인포메이션 보도에 따르면 소식통은 오픈AI는 구글이 장악한 검색 시장에 도전할 준비를 하고 있으며, 이 서비스는 마이크로소프트(MS)의 검색 엔진 '빙'을 기반으로 일부 구동될 것이라고 전했다.

오픈AI가 이번에 공개한 동영상 AI 모델 '소라'는 물론, '웹 검색 서비스'가 챗GPT 서비스와 연계되는 것인지에 대해선 알려지지 않았다. 다만 이런 다양한 기능이 챗GPT에 담겨질 경우 오픈AI의 영향력이 더욱 막강해질 것은 자명한 일이다.

이미 챗GPT 앱은 AI 챗봇 역할을 넘어서, 생성형 AI 스토어로서의 존재감을 키우고 있다. 챗GPT 출시 1년 만에 GPT 기반의 스토어 'GPTs'를 오픈했고, 이미 300만 개의 챗봇이 등록됐다. 애플에 등록된 178만 개의 앱보다 많은 규모다. 

구글 "챗GPT에 밀리지 않는다"…'제미나이 1.5 프로' 공개

구글도 멀티모달 AI '제미나이Gemini)'를 앞세워 오픈AI, MS와 본격적으로 경쟁하고 있다. 구글은 지난 16일 중형 멀티모달 모델 '제미나이 1.0 프로'의 업그레이드 버전인 '제미나이 1.5 프로'를 공개했다. 구글은 내부 테스트 결과 '제미나이 1.5 프로'가 이전 모델 대비 87% 향상된 성능을 보였다고 밝혔다.

특히 구글은 오픈AI가 개발한 GPT-4 터보의 토큰 처리 규모 12만8000개를 훌쩍 뛰어넘는 최대 100만개 규모라며 '제미나이 1.5 프로' 성능에 자신감을 드러냈다. 이는 ▲영상 1시간 ▲음성 11시간 ▲코드 3만줄 ▲단어 70만개 등의 방대한 정보를 한 번에 처리할 수 있는 규모다.

또 구글은 '제미나이 1.5 프로'가 보다 정교한 이해 능력과 추론 능력을 갖췄다고 전했다. 예를 들어 44분 분량인 미국 무성 영화의 정확한 주요 줄거리와 사건들을 분석하고 영화 속 사소한 부분까지도 추론해 낼 수 있다고 설명했다. 400페이지가 넘는 분량의 아폴로 11호 달 탐사 임무 관련 문서가 주어지면 전체 내용과 이미지, 세부 정보를 추론할 수 있다.

순다 피차이 구글 및 알파벳 CEO는 이날 "제미나이 1.5 프로는 다양한 부문에서 놀라운 발전을 이뤘다"며 “더 적은 컴퓨팅 자원으로 '제미나이 1.0 울트라(최상위 모델)'에 필적하는 성능을 갖추고 있다"고 밝혔다.

특히 구글의 제미나이는 챗GPT와 달리 무료 버전임에도 최신 정보의 답변을 제공한다. 또한 오픈AI 이전에 이미 '소라'와 같은 텍스트 입력 기반의 동영상 생성 AI 모델도 개발한 바 있다. 구글 역시 '제미나이'를 중심으로 생성형 AI 생태계를 확장하고 있다.


◎공감언론 뉴시스 [email protected]
  • 페이스북
  • 트위터
  • 카카오톡
  • 네이버 블로그