DeepMind, AI 비디오 생성 모델 Veo 2 공개
구글의 AI 연구소 DeepMind가 새로운 비디오 생성 AI 모델인 Veo 2를 발표했다. Veo 2는 이전 모델 Veo의 후속작으로, OpenAI의 Sora와 경쟁을 목표로 한다. 해당 모델은 최대 2분 이상의 길이와 4K(4096 x 2160 픽셀) 해상도의 비디오를 생성할 수 있어 Sora 모델보다 네 배 높은 해상도와 여섯 배 긴 재생 시간을 자랑한다.
Veo 2, 초기 제한된 형태로 공개
먼저 Veo 2는 구글의 실험적 비디오 제작 도구인 VideoFX에서만 720p 해상도와 8초 분량으로 제공될 예정이다. 하지만 향후 DeepMind는 자사의 Vertex AI 개발자 플랫폼을 통해 Veo 2를 보다 광범위하게 활용할 계획이다.
텍스트 또는 이미지 기반 비디오 생성
Veo 2는 텍스트 입력만으로 비디오를 생성하거나 텍스트와 참조 이미지의 조합을 통해 비디오를 제작할 수 있다. 이번 모델의 업그레이드에는 물리적 특성, 카메라 조작, 그리고 동적인 장면에서도 선명한 그래픽을 구현하는 능력이 포함되어 있다. 특히 동작, 유체의 역학, 빛의 특성을 더 정밀하게 재현하며 복잡한 인간 표정과 같은 세부 묘사도 가능하다.
텍스처와 액체 표현력에서 높은 성능 보여
DeepMind는 Veo 2의 샘플 영상 사례를 공개하며, 텍스처 및 액체 표현에서 모델이 높은 성능을 발휘한다고 강조했다. 하지만 복잡한 시나리오에서의 일관성 유지 및 세부적인 디테일 생성에는 여전히 한계가 있음을 인정했다.
데이터 출처와 훈련 방식에 대한 논란
Veo 2는 광범위한 비디오 데이터 세트를 기반으로 훈련되었으나, 구체적인 데이터 출처는 공개되지 않았다. DeepMind는 공공 데이터 사용이 공정 이용(fair use)에 해당한다고 주장하며 데이터 소유주의 동의를 요구하지 않는다. 회사는 콘텐츠 제작자 및 사용자들의 피드백을 반영해 향후 모델을 개선할 계획이다.
안전장치 강화: 필터링 및 워터마크 기술 적용
DeepMind는 Veo 2의 오용을 방지하기 위해 명시적 콘텐츠 생성을 차단하는 필터를 추가하고 워터마크 기술인 SynthID를 활용해 생성된 프레임에 추적 가능한 표식을 삽입하고 있다. 이를 통해 잠재적 위험 요소를 최소화하고자 한다.
이미지 생성 모델 Imagen 3도 업그레이드
또한 DeepMind는 이미지 생성 모델 Imagen 3에도 주요 업그레이드를 도입했다. 보다 다양한 스타일의 이미지를 생성하고 더욱 세련된 사용자 인터페이스를 제공해 사용성을 한층 개선했다.