구글, 멀티모달 AI 통합으로 현실 이해력 강화
구글의 인공지능(AI) 개발을 이끄는 딥마인드 CEO 데미스 하사비스는 최근 한 팟캐스트에서 자사의 AI 모델인 ‘제미니(Gemini)’와 영상 생성 모델 ‘베오(Veo)’를 통합해 현실 세계에 대한 이해력을 높이겠다는 계획을 밝혔다. 하사비스는 이 같은 AI 기술의 융합이 "실생활에서 도움을 줄 수 있는 범용 디지털 어시스턴트"를 실현하는 데 주요한 역할을 할 것이라고 강조했다.
다양한 미디어를 융합하는 '옴니' AI 트렌드
하사비스는 AI 산업 전반에서 텍스트, 이미지, 음성, 영상 등 여러 형식의 데이터를 동시에 처리할 수 있는 ‘옴니(Omni)’ 모델에 대한 개발 경쟁이 치열하다고 설명했다. 실제로 구글의 제미니 모델은 텍스트 생성은 물론 이미지와 음성까지 생성 가능하며, 오픈AI(OpenAI)와 아마존(Amazon) 또한 유사한 기술 개발에 속도를 내고 있다.
유튜브 영상으로 물리 세계 학습
특히 베오 모델은 유튜브 동영상을 기반으로 훈련되고 있다. 하사비스에 따르면, 방대한 영상 데이터는 AI가 현실 세계의 물리적 요소, 예를 들어 동작, 움직임, 상호작용 등의 개념을 학습하는 데 중요한 역할을 한다. 이러한 방식은 단순히 텍스트나 정적인 이미지가 아닌, 현실의 동적인 상황을 그대로 반영하는 점에서 AI가 ‘세상’을 이해하는 데 유리하다.
유튜브 콘텐츠 활용 위한 데이터 접근 확대
한편, 구글은 AI 모델 훈련을 위해 유튜브 콘텐츠를 일정 부분 활용할 수 있도록 콘텐츠 제작자들과 협의하고 있으며, 이에 맞춰 자사의 서비스 이용 약관도 개정한 상태다. 이는 고도화된 AI 학습을 위한 데이터 확보 전략의 일환으로 풀이된다.
이 기사에 대한 의견:
AI 기술이 다양한 형태의 정보를 동시에 처리하고 이해하려는 방향으로 진화하고 있다는 점에서, 구글의 전략은 매우 선도적인 흐름을 반영한다고 볼 수 있다. 특히 유튜브와 같은 영상 기반 데이터를 통해 물리세계를 학습하려는 시도는 기존의 텍스트 기반 AI와는 또 다른 차원의 이해력을 가능하게 할 것으로 기대된다. 다만, 데이터 활용에 대한 윤리적 기준과 콘텐츠 제작자들과의 협력도 중요한 이슈로 부상할 수 있다.