엔비디아, AI 추론 가속화 오픈소스 소프트웨어 'Dynamo' 공개
엔비디아(NVIDIA)가 AI 공장에서의 대규모 추론 모델 운용을 가속하고 확장할 수 있도록 설계된 오픈소스 소프트웨어 ‘Dynamo(다이너모)’를 새롭게 선보였다.
GPU 자원 최적 활용으로 성능 극대화
다이너모는 하나의 서버나 GPU에 국한되지 않고, 수천 개의 GPU에 걸쳐 AI 추론 요청을 효율적으로 분산 처리함으로써 운영 비용을 절감하고 토큰 수익(token revenue)을 극대화하는 데 중점을 둔 솔루션이다. 특히, LLM(대규모 언어 모델)의 추론 과정에서 발생하는 ‘사고(reasoning)’ 수준의 연산을 보다 빠르고 경제적으로 수행할 수 있도록 돕는다.
최근 AI 시장에서의 자동 응답 모델은 한 요청당 수만 개의 토큰을 생성하는 것이 일반화되고 있어, 이러한 추론과정의 속도와 효율이 AI 서비스의 수익성을 좌우하게 됐다.
분리형 서비스 구조로 대규모 모델 대응
다이너모는 기존 ‘Triton Inference Server’를 계승하며, 추론과 생성 과정(Processing & Generation)을 분리해 서로 다른 GPU에 분산 수행하는 ‘분리형 서비스(Disaggregated Serving)’ 구조를 채택하고 있다. 이를 통해 대규모 언어 모델 운용 시 연산 자원을 효율적으로 할당할 수 있으며, 애플리케이션의 처리량도 크게 높일 수 있다.
특히, NVIDIA의 최신 Hopper 플랫폼에서 Llama 모델 운용 시 기존 대비 최대 2배의 퍼포먼스와 수익 향상을 달성했고, DeepSeek-R1 모델 기준 GPU당 생성되는 토큰 수를 최대 30배까지 끌어올린 것으로 나타났다.
실시간 자원 조정 및 요청 경로 최적화
다이너모는 GPU 자원을 실시간으로 추가, 제거하거나 재할당할 수 있으며, 대규모 클러스터 내에서 특정 GPU를 식별하여 과부하를 줄이는 방식으로 요청을 최적 경로로 라우팅할 수 있다. 데이터를 더 저렴한 저장장치로 오프로드(Offload)하는 기능도 갖춰 비용 절감에 기여한다.
또한, 과거 요청을 메모리에 맵핑하여 재계산 없이 응답할 수 있도록 하는 ‘스마트 라우팅(Smart Routing)’ 기능 역시 주요 혁신으로 꼽힌다.
다양한 프레임워크와 호환 가능한 오픈소스
다이너모는 PyTorch, NVIDIA TensorRT-LLM, vLLM 등 다양한 추론 프레임워크와 호환되며, 완전한 오픈소스로 공개되어 기업이나 스타트업, 연구기관이 대규모 분산 구조에서 AI 모델을 실험하고 배포할 수 있는 기반을 제공한다.
이와 관련해 퍼플렉서티 AI(Perplexity AI)의 CTO 데니스 야라츠는 “글로벌 서비스 제공을 위해 엔비디아 GPU 및 추론 소프트웨어에 의존하고 있다”며 성능과 안정성에 대한 신뢰를 강조했다.
AI 플랫폼 코히어(Cohere) 측도 에이전트 기반 AI(Agentic AI) 성능 향상을 위해 다이너모를 적극 활용할 계획이라고 언급하며, 정교한 다중 GPU 스케줄링의 필요성을 강조했다.
다이너모의 핵심 혁신 네 가지
엔비디아는 다이너모에 포함된 핵심 기술로 다음 네 가지를 소개했다:
- GPU 플래너(GPU Planner): 사용자 요청에 따라 GPU를 유연하게 할당.
- 스마트 라우터(Smart Router): 반복 계산을 최소화하며 효율적으로 요청 처리.
- 저지연 통신 라이브러리(Low-Latency Communication Library): GPU 간 고속 데이터 전송 지원.
- 메모리 관리자(Memory Manager): 추론 데이터를 비용 효율적인 저장장치로 관리.
엔비디아는 향후 NIM 마이크로서비스에 다이너모를 통합하고, AI 엔터프라이즈 소프트웨어 플랫폼의 차기 버전에 이를 정식 지원할 계획이다.
기자 의견
NVIDIA의 'Dynamo'는 AI 추론을 위한 소프트웨어 인프라의 새로운 전환점을 마련할 것으로 보인다. AI가 점점 더 많은 연산과 사고 과정을 요구하는 시점에서, 비용 효율성과 처리 속도의 동시 개선은 AI 산업 전반의 서비스 수익 모델을 크게 변화시킬 수 있다. 특히 GPU의 역할이 ‘추론 처리’의 단위를 넘어서 네트워크상에서의 유기적인 협업으로 확장된 점은 AI 클라우드 컴퓨팅의 다음 단계를 예고한다. 중소 기업이나 AI 스타트업에게도 오픈소스 방식은 새로운 가능성을 열어주는 긍정적인 신호다.