텍스트 프롬프트를 비디오로 변환하는 신기술
Meta가 제시한 새로운 영상 생성 기술 'Movie Gen'은 텍스트 프롬프트를 이용해 현실감 있는 영상을 제작할 수 있습니다. 이 기술은 OpenAI, Runway, Meta와 같은 기업들이 많은 자금을 투자하고 개발한 '생성적 영상 모델(Generative Video Models)'의 일환입니다.
시청각 요소의 조화로운 구현
'Movie Gen'은 영상의 내용에 맞춰 오디오를 생성합니다. 예를 들어, 자동차의 움직임에 따라 엔진 소리가 추가되거나 폭포 소리가 배경에 삽입될 수 있습니다. 또한, 적합할 경우 음악을 추가하기도 합니다.
편집의 용이성 강조
Meta의 'Movie Gen'은 텍스트 기반의 간단한 편집 기능을 제공합니다. 이 기능을 통해 사용자는 예를 들어 "배경을 바쁜 교차로로 변경해 주세요" 또는 "옷을 빨간 드레스로 바꿔 주세요"라고 요청하면, 해당 부분만 변경할 수 있습니다.
해상도 및 길이 제한
이 기술은 768 픽셀 너비의 영상을 생성하며, 이는 1080p로 업스케일이 가능합니다. 그러나 생성되는 영상은 최대 16초, 프레임율 16fps로 다소 제한적입니다. 24fps로는 10초 동안 생성할 수 있습니다.
챌린지와 예방책
음성 생성이 포함되지 않은 이유 중 하나는 기술적인 어려움과 정치적인 고려사항 때문입니다. 입술과 얼굴 움직임에 맞추는 것이 복잡하며, 선거 기간 중에는 불리할 수 있습니다. 이러한 요소들은 기술 개발 과정에서 신중한 고려가 필요함을 보여줍니다. 'Movie Gen'은 현재 AI 연구 개념이며, 안전이 최우선 과제입니다. 대중에게는 공개되지 않을 예정입니다.
출처 : 원문 보러가기