메타, 생성형 AI 기반 원스톱 동영상 제작 도구 무비 젠 공개

메타(Meta)가 AI를 활용한 비디오 생성기인 ‘메타 무비 젠(Meta Movie Gen)’을 공개했다. 무비 젠은 원하는 비디오를 문자로 입력하면 인공지능이 자동으로 제작하는 ‘영화 생성기’다. 비디오를 생성하는 AI 도구가 새로울 것이 없지만 메타는 ‘몰입형 AI 콘텐츠에 대한 새로운 표준’이라며 무비 젠의 특징을 표현했다.

무비 젠은 그동안 메타가 멀티모달 AI 연구를 진행하며 사진, 오디오, 비디오, 3D 애니메이션을 생성하는 데 활용한 메이크-어-신(Make-A-Scene) 시리즈 모델을 기반으로 한다. 그 동안 메타가 연구했던 다양한 형태의 AI 도구, 라마(LIama)와 같은 대규모 언어 모델의 집약체라고 할 수 있다.

메타 무비 젠을 활용하면 텍스트 입력으로 원하는 비디오를 간편하게 생성할 수 있다(위). 텍스트 입력만으로 배경이나 객체의 모습을 바꿀 수 있는 비디오 편집도 지원한다(아래).

Meta

메타 무비 젠을 활용하면 텍스트 입력으로 원하는 비디오를 간편하게 생성할 수 있다(위). 텍스트 입력만으로 배경이나 객체의 모습을 바꿀 수 있는 비디오 편집도 지원한다(아래). (자료 : Meta)메타는 “무비 젠은 이미지, 오디오, 비디오 등의 모든 방식을 결합하고 이전에는 불가능했던 방식으로 모델을 사용하는 사람들에게 더욱 세밀한 제어를 가능하게 하는 세 번째 물결이다. 이전 세대와 마찬가지로 이러한 모델을 통해 창의성을 가속화할 수 있는 다양한 신제품이 가능할 것으로 예상한다”라고 밝혔다.

무비 젠의 기능은 ‘텍스트 입력으로 비디오 생성’, ‘텍스트로 비디오 편집’, ‘개인화된 비디오 제작’, ‘음향 효과와 사운드트랙 제작’으로 나눌 수 있다. 프롬프트에 ‘만들고 싶은’ 또는 ‘바꾸고 싶은’ 비디오를 문자로 입력하면, AI가 이를 기반으로 실제 촬영한 영상과 가까운 고품질 비디오를 만들어 준다.

비디오 생성은 텍스트-이미지와 텍스트-비디오에 최적화된 모델을 활용해 사용자가 원하는 이미지 또는 비디오를 생성한다. 300억 개의 매개변수를 사용하는 변환 모델을 통해 일초에 16 프레임의 영상을 최대 16초 길이로 제작할 수 있다. 객체의 개별적인 동작, 주체와 객체의 상호 작용, 카메라 동작 등의 추론을 통해 비디오를 생성한다.

비디오 수정은 텍스트 입력으로 원본 영상의 객체나 피사체를 누구나 쉽게 바꿀 수 있는 기능이다. 예를 들어 사막을 달리고 있는 사람의 뒷모습을 보여주는 원본 비디오에, ‘선인장이 많은 사막’이나 ‘공룡 코스튬을 입은 사람으로 교체’라는 요청 사항을 입력하면 바로 원하는 비디오로 수정할 수 있다.

개인화된 비디오 제작은 매우 요긴하면서 한편으로 매우 위험할 수 있는 기능이다. 요즘 한창 문제가 되고 있는 딥페이크에 악용될 소지가 있기 때문이다. 개인화 비디오는 본인의 이미지를 업로드를 통해 제공하면, 영상 속의 모습을 자기 모습으로 변환한 비디오를 제작할 수 있다. 예를 들어 실험실에서 연구 중인 과학자의 얼굴을 자신의 얼굴로 바꾼 비디오를 만들 수 있다.

음향 효과와 사운드트랙은 동영상에 생기와 활력을 불어넣는 핵심 요소로, 음향 효과와 사운드트랙을 통해 더욱 사실적인 비디오 제작이 가능하다. 예를 들어 ‘절벽과 사람을 향해 비가 쏟아지고, 배경에서는 음악이 흐른다’는 내용을 프롬프트에 입력하면, 주문한 내용에 맞는 음향과 영상으로 이루어진 비디오를 제작해 준다.

오디오 생성 기능은 130억 개의 매개 변수로 이루어진 오디오 생성 모델 학습을 통해, 주변 소리, 음향 효과, 악기 배경 음악 등을 포함해 최대 45초 길이의 고품질 및 고충실도 오디오를 생성한다. 이렇게 생성한 오디오를 비디오에 맞게 동기화하는 과정을 통해 동영상과 오디오가 어우러진 비디오를 생성한다.

메타는 무비 젠을 공개하면서 아키텍처, 훈련 목표, 데이터 레시피, 평가 프로토콜, 추론 최적화 등 연구 및 개발 과정을 담은 논문을 함께 공개했다. 현재 모델이 가진 한계가 존재한다고 밝히고, 향후 연구를 통해 추론 시간을 줄이고 확장을 통한 모델 품질 개선할 수 있도록 개선할 것이라고 전했다.

그러면서 “생성형 AI가 아티스트와 애니메이터의 작업을 대체하는 것은 아니라는 점에 유의하는 것이 중요하다. 우리는 이 기술이 사람들이 새로운 방식으로 자신을 표현하고, 그렇지 않으면 기회가 없었을 사람들에게 기회를 제공하는 데 도움이 될 수 있다고 믿기 때문에 이 연구를 공유한다. 우리의 희망은 언젠가 미래에 모든 사람이 무비 젠을 사용하여 예술적 비전을 실현하고 고화질 비디오와 오디오를 만들 수 있는 기회를 갖게 되는 것’이라고 개발 배경을 밝혔다.
[email protected]