아마존, 차세대 웹 자동화 AI 모델 'Nova Act' 공개
아마존이 새로운 인공지능 모델 'Nova Act'를 선보이며 웹 브라우저 기반의 자동화 작업을 보다 정교하게 수행할 수 있는 지능형 에이전트 개발에 나섰다.
복잡한 실생활 작업까지 맡기는 ‘AI 에이전트’ 구상
아마존은 에이전트를 단순한 챗봇이 아닌, 실제 디지털 및 물리적 환경에서 다단계 작업을 직접 수행할 수 있는 존재로 보고 있다. 예를 들어 결혼식 준비나 복잡한 IT 시스템 관리처럼 많은 단계를 거치는 업무도 AI가 처리할 수 있도록 하는 것이 목표다.
기존의 자동화 기술은 보통 사람의 상시 개입이나 다양한 API 통합에 의존하는 방식이었으나, 이러한 방식은 항상 효율적이지 않다. Nova Act는 이런 제한을 줄이기 위해 개발됐다.
개발자를 위한 SDK도 함께 출시
아마존은 Nova Act와 함께 ‘Amazon Nova Act SDK’의 리서치 프리뷰 버전도 공개했다. 이 소프트웨어 개발 키트는 개발자들이 미리 정의된 작업을 자동화하는 에이전트를 제작할 수 있도록 지원한다.
예를 들어 부재중 알림 발송, 캘린더 일정 등록, 자동 이메일 회신 설정 등 반복적인 웹 기반 작업들을 간편하게 구현할 수 있다. 이 SDK는 복잡한 업무 흐름을 검색, 결제, 버튼 클릭 등 기본 명령어 단위로 단순화해 작업 효율을 높인다.
SDK는 웹 페이지 로딩 지연에도 대응할 수 있도록 병렬 처리(threading), API 호출, 파이썬 통합 등을 지원하며, 보다 정확한 작업 수행을 가능하게 한다.
높은 정밀도… 사용자 인터페이스도 학습
Nova Act는 신뢰성과 정확도 측면에서도 뛰어난 성능을 기록했다. 웹 상에서 자연어 지시를 통해 텍스트 상호작용을 수행하는 ScreenSpot Web Text 벤치마크에서 0.939의 높은 점수를 받았고, 아이콘 기반 상호작용에서는 0.879를 기록했다.
다만, 다양한 UI 요소를 인식하고 탐색하는 과정에서는 아직 보완이 필요하다는 평가(예: GroundUI Web 테스트)도 나왔다.
또한 Nova Act는 별도의 대규모 학습 없이도 새로운 사용자 인터페이스 환경에 빠르게 적응할 수 있는 능력을 갖추고 있어, 이 기능은 브라우저 기반 게임이나 Alexa+ 등 아마존 내부 서비스에서 이미 활용되고 있다.
무인 실행, 비동기 API 통합까지 염두
성능이 안정적으로 확보된 에이전트의 경우, 사람의 개입 없이도 백그라운드에서 실행하거나 다양한 시스템에 API 형태로 통합해 비동기 방식으로 자동화 작업을 수행할 수 있다.
아마존은 이번 Nova Act를 통해 지능형 에이전트 개발의 첫 단계를 밟았다고 강조한다. 궁극적으로는 실제 환경에서의 강화학습을 통해 에이전트의 학습을 이어갈 계획이며, 이 과정은 향후 Nova 모델의 기반이 될 중요한 과정으로 보고 있다.
📝 총평
이번 아마존의 Nova Act 발표는 웹 기반 자동화 작업을 근본적으로 변화시킬 가능성을 보여준다. 특히 단순한 매크로 수준을 뛰어넘어 다양한 상황에 적응하고, 복합적인 지시에도 대응할 수 있는 기능은 향후 기업의 생산성 향상에 큰 도움이 될 수 있다. 앞으로 Nova Act가 실제 서비스나 애플리케이션에서 어떻게 활용될지 주목할 필요가 있다.