구글 딥마인드, 역대 최고 지능 AI 모델 ‘제미니 2.5’ 공개
구글 딥마인드(Google DeepMind)가 자사의 최신 인공지능 모델 ‘제미니 2.5(Gemini 2.5)’를 공개했다. 이 모델은 기존 모델보다 강력한 사고 능력과 정교한 추론 기능을 갖추고 있어 “가장 지능적인 AI”라는 평가를 받고 있다. 이번에 선보인 ‘제미니 2.5 프로(Gemini 2.5 Pro)’는 실험적 버전임에도 업계 기준을 뛰어넘는 성능을 선보이며 큰 주목을 받고 있다.
복잡한 문제 해결 가능한 ‘생각하는 AI’
딥마인드 최고기술책임자(Koray Kavukcuoglu)는 제미니 2.5를 일명 ‘생각하는 모델(thinking model)’이라 표현하며, 단순한 질문 응답을 넘어서 논리적 추론과 정보 분석이 가능한 점을 강조했다. 제미니 2.5는 기존의 분류나 예측 수준을 넘어 상황에 맞는 맥락과 미묘한 차이점을 고려해 스스로 결론을 도출할 수 있는 능력을 갖췄다.
딥마인드는 지난 수년간 강화학습, 연쇄적 사고 유도(prompting) 등 다양한 방법을 통해 AI의 사고 능력 강화를 시도해왔다. 이러한 노력은 이전 모델인 ‘제미니 2.0 플래시 씽킹’의 도입으로 이어졌고, 이번 제미니 2.5에서는 그 진화가 더욱 뚜렷하게 드러난다.
인간 수준의 지식 평가 시험에서 최고 성과
제미니 2.5는 수학과 과학 분야의 벤치마크 테스트에서 테스트 시간 특화 기법 없이도 최고 수준의 성과를 기록했다. 특히 인간의 지적 한계를 측정하기 위해 설계된 '휴머니티스 라스트 이그잼(Humanity’s Last Exam)'에서 18.8%의 최고 점수를 기록, 자사의 고도화된 추론 능력을 입증했다.
코드 생성과 웹앱 개발에서도 돋보이는 성능
딥마인드는 제미니 2.5의 코딩 성능 향상에도 많은 역량을 집중했다. 그 결과, 이전 모델보다 훨씬 정교하게 웹 애플리케이션을 시각적으로 구현하고, 기존 코드를 효율적으로 변환하는 작업에서도 큰 성과를 보이고 있다. 이는 소프트웨어 개발 분야에서의 활용 가능성을 높이는 요인으로 작용한다.
최대 200만 토큰까지 처리… 방대한 맥락 이해 가능
이번 모델은 자연스러운 멀티모달 입력(텍스트, 이미지 등) 처리 능력은 물론, 최대 100만 개의 토큰(context length)을 한 번에 처리할 수 있는 긴 맥락 이해 능력을 갖췄다. 곧 200만 토큰까지 확장할 예정으로, 방대한 데이터 분석과 복잡한 과제 수행에서 유용하게 활용될 수 있다.
개발자와 기업 대상 공개… 피드백 반영 예정
개발자들은 구글 AI 스튜디오에서 제미니 2.5 프로를 직접 실험해볼 수 있으며, 일반 사용자들도 '제미니 어드밴스드(Gemini Advanced)'를 통해 모델을 체험할 수 있다. 향후 구글 클라우드의 Vertex AI에도 적용될 예정이다. 딥마인드는 이용자 피드백을 수집해 향후 모델 개선에 적극 반영한다는 방침이다.
의견
제미니 2.5는 AI 기술의 진일보를 보여주는 대표적 사례다. 단순한 질문응답 능력을 넘어서, 실제로 복잡한 사고 과정을 거쳐 결론을 도출하는 능력은 향후 의학, 법률, 연구 등 고차원의 전문 영역에 AI가 갖는 가능성을 넓혀준다. 특히 사람 중심의 평가 지표(Humanity’s Last Exam) 접근은 인간 수준의 지능을 AI가 얼마나 잘 흉내낼 수 있는지를 따지는 중요한 기준이 될 수 있다. 물론 이와 동시에 AI의 윤리적 활용과 관리에 대한 논의도 깊어질 필요가 있다.