유럽 스타트업 프루나 AI, 자체 압축 프레임워크 오픈소스로 공개
대형 AI 모델 최적화 기술 통합… 성능 유지하면서 모델 경량화
유럽의 인공지능 스타트업 프루나 AI(Pruna AI)가 자사의 AI 모델 최적화 프레임워크를 오픈소스로 공개했다. 이 프레임워크는 캐싱(caching), 프루닝(pruning), 양자화(quantization), 지식 증류(distillation) 등 다양한 최적화 기법들을 통합적으로 지원하는 것이 특징이다.
모델 압축 후 품질 변화까지 정밀 측정
압축 모델 저장 방식 표준화… 품질 저하·성능 향상 비교도 가능
프루나 AI의 공동 창립자이자 최고기술책임자(CTO)인 존 라크완(John Rachwan)은 “이번 프레임워크는 압축된 AI 모델의 저장 및 불러오기 과정을 표준화했으며, 압축 전후 품질 변화와 성능 개선 여부도 함께 평가할 수 있다”고 설명했다.
이 프레임워크는 허깅페이스(Hugging Face)가 트랜스포머 모델을 다루는 방식처럼, 다양한 최적화 단계를 통합해 일관된 시스템으로 제공하려는 시도다.
GPT-4 Turbo에서도 활용된 '지식 증류' 기법 도입
대형 모델 성능을 소형 모델에 전달…속도·경량화 동시에 실현
'지식 증류'(Knowledge Distillation)는 성능이 우수한 대형 모델(Teacher)이 생성한 결과물을 기반으로 소량의 모델(Student)을 훈련시키는 방식이다. OpenAI 역시 이 기법을 활용해 GPT-4 Turbo 같은 경량 고속 모델을 만든 바 있다. 프루나 AI는 이와 같은 다양한 최적화 기법을 하나의 도구로 통합 제공하는 것을 목표로 삼고 있다. 이는 오픈소스 분야에서는 드문 접근 방식이다.
다양한 모델 유형 지원… 이미지·영상 생성에 초점
시나리오, 포토룸 등 초기 사용자 확보… 향후 기능 추가도 예고
이 프레임워크는 대형 언어 모델(LLM)은 물론, 컴퓨터 비전 모델까지 폭넓게 지원한다. 현재는 특히 이미지 및 영상 생성 모델의 최적화에 중점을 두고 있다. 초기 사용자로는 시나리오(Scenario)와 포토룸(PhotoRoom) 같은 관련 기업이 있다.
기업용 버전도 출시… 자동 압축 지원 기능 공개 예정
라마 모델 8배 압축 성공… 성능 손실은 최소 수준
이와 별도로 프루나 AI는 고급 기능을 제공하는 기업용 프레임워크도 운영 중이다. 향후에는 자동으로 모델을 최적화해주는 '압축 에이전트(Compression Agent)' 기능도 추가될 예정이다. 이를 통해 개발자의 부담을 줄이면서도 정확도를 유지한 최적화가 가능하다고 회사 측은 전했다.
프루나 AI는 실제로 LLaMA 같은 대형 언어 모델을 기존보다 8배 작게 압축하는 데 성공했으며, 품질 저하도 거의 없었다고 강조했다. 최근에는 다양한 투자자로부터 650만 달러(약 89억 원) 규모의 시드 투자를 유치했다.
의견
프루나 AI의 접근은 기술적으로도 실용성 면에서도 주목받을 만하다. 최근 생성형 AI 모델이 커지고 복잡해지면서, 이를 경량화하면서도 성능을 유지하려는 요구가 커지고 있다. 프루나 AI는 다양한 최적화 기법을 하나의 통합된 도구로 제공함으로써, AI 개발자들이 보다 쉽게 고성능 모델을 경량화할 수 있도록 돕는다. 특히 오픈소스로 공개함으로써 커뮤니티 접근성과 기여 가능성을 높인 점도 긍정적이다. 앞으로 추가될 자동 최적화 기능이 실제 현장에서 얼마나 큰 효과를 발휘할지도 기대된다.