엘론 머스크의 xAI, 최신 AI 모델 'Grok 3' 공개
최신 테스트에서 수학·프로그래밍 성능 입증
엘론 머스크가 이끄는 AI 스타트업 xAI가 새로운 인공지능(AI) 모델 'Grok 3'를 공개했다. 이 모델은 약 20만 개의 GPU를 활용해 훈련되었으며, 수학 및 프로그래밍 관련 테스트에서 OpenAI 등 기존 선두 기업들의 모델을 능가하는 성능을 보였다.
그러나 이러한 벤치마크 테스트의 신뢰도에 대한 의문이 제기되고 있다. 현재 사용되는 평가 방식이 실제 사용자가 중요하게 여기는 작업보다는 특정한 지식 수준을 반영하는 경우가 많기 때문이다. 이에 따라 AI 성능 평가 기준을 경제적 영향력이나 실질적인 활용도와 연계해야 한다는 주장이 나오고 있다. 일부 전문가들은 독립적인 평가 기관의 필요성을 강조하며, 보다 효과적인 벤치마크 개발이 필요하다고 지적한다.
AI 벤치마크 논의가 계속되는 가운데, 일부에서는 새로운 모델과 평가 방식 자체에 대한 관심을 줄이고, 획기적인 기술적 돌파구가 없는 한 지나친 테스트 경쟁을 경계해야 한다는 의견도 제기되고 있다.
OpenAI, AI 개발 방식 변화… '지적 자유' 강조
AI 연구 방향 전환… 메타, 첫 AI 개발자 컨퍼런스 개최
한편, OpenAI는 최근 AI 개발 방식에 변화를 주며 '지적 자유(Intellectual Freedom)'를 더욱 강조할 방침이다. 이전 OpenAI 최고기술책임자(CTO) 미라 무라티가 설립한 신규 스타트업 'Thinking Machines Lab'은 개인 맞춤형 AI 도구를 개발해 사용자의 개별 목표를 지원하는 것을 목표로 삼고 있다.
메타 또한 오는 4월 첫 번째 생성형 AI 개발자 컨퍼런스 'LlamaCon'을 개최해 AI 연구자 및 개발자들과의 협력을 강화할 예정이다.
AI 코드 실력 평가 기준 등장… OpenAI, SWE-Lancer 발표
Anthropic ‘Claude 3.5 Sonnet’ 최상위 성능 기록
최근 OpenAI는 AI 모델의 소프트웨어 개발 역량을 평가하는 새로운 벤치마크 'SWE-Lancer'를 발표했다. 이 테스트에서 Anthropic의 최신 모델인 'Claude 3.5 Sonnet'이 가장 높은 성능을 기록하며 큰 주목을 받았다.
한편, 중국 스타트업 'Stepfun'은 다국어 음성 이해 및 생성이 가능한 AI 모델 'Step-Audio'를 선보였다. 이 모델은 감정 표현을 조절할 수 있어 보다 자연스러운 음성 대화를 가능하게 한다.
Nous Research는 복잡한 문제 해결 능력을 향상시키기 위해 논리적 사고와 직관적 언어 능력을 결합한 'DeepHermes-3 Preview' 모델을 발표하며, AI 모델의 발전 가능성을 한층 더 넓혔다.
📝 기자의 한마디
최근 AI 업계에서는 기술적 성능을 단순히 평가하는 기존 벤치마크 방식에 대한 의문이 증가하고 있다. 단순한 점수 경쟁보다는 실질적인 활용도가 중요한 시대가 된 만큼, AI 모델의 실제 성능을 평가하는 새로운 기준이 마련될 필요가 있다. 또한, OpenAI와 메타 등 주요 기업들이 AI 개발 방향을 다양하게 모색하고 있는 만큼, 앞으로 어떤 방식으로 AI가 발전할지 관심을 두고 지켜볼 필요가 있다.