OpenAI, 새로운 AI 모델 GPT-4.1 공개
OpenAI가 새로운 인공지능 모델 시리즈인 'GPT-4.1'을 출시하며 AI 코딩 기술 발전에 박차를 가하고 있다. 이번에 공개된 모델은 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano 세 가지 버전으로 구성되며, 복잡한 소프트웨어 개발을 지원하는 데 초점을 두고 있다.
향상된 코딩 성능과 명령 수행 능력
GPT-4.1 계열의 모델들은 코딩 작업과 명령어 처리에서 뛰어난 성능을 보인다. 특히 100만 토큰의 맥락을 한 번에 처리할 수 있는 능력을 갖추고 있어, 대략 75만 단어에 해당하는 데이터를 분석하거나 생성하는 데 사용될 수 있다. OpenAI는 향후 이러한 기술을 활용해 '앱을 처음부터 끝까지 프로그래밍하는' 수준의 AI 개발을 목표로 하고 있다.
더 일관된 응답과 프론트엔드 처리
GPT-4.1은 프론트엔드 개발과 응답 형식 처리 능력을 강화했다. 쓰이지 않는 수정 사항은 줄이고, 도구 활용 방식에서도 더 일관된 결과를 제공한다. 이전 모델인 GPT-4o 및 GPT-4o mini보다 코딩 벤치마크 테스트에서 더 우수한 성능을 보였다는 것이 OpenAI의 설명이다.
합리적인 가격 정책으로 다양한 선택지 제공
다양한 요구에 대응하기 위해 가격도 세분화됐다. GPT-4.1의 경우 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 8달러로 설정되어 있으며, 경량 버전인 GPT-4.1 mini는 각각 0.40달러와 1.60달러, GPT-4.1 nano는 0.10달러와 0.40달러로 책정돼 보다 저렴한 옵션을 제공한다.
다른 경쟁 모델 대비 상대적 성능
테스트 결과를 보면, GPT-4.1은 특정 코딩 능력을 평가하는 SWE-bench Verified에서 52%에서 54.6%의 정확도를 보였는데, 이는 Google의 Gemini 2.5 Pro 또는 Anthropic의 Claude 3.7 Sonnet에 비해 낮은 수치다.
그러나 OpenAI는 GPT-4.1이 비디오 콘텐츠 이해를 평가하는 Video-MME 테스트에서 72%의 정확도로 최고 점수를 받았다고 강조하고 있다. 그럼에도 OpenAI는 복잡한 작업에서 모델이 인간 전문가보다 부족한 경우가 있으며, 토큰 수가 많아질수록 정확도가 낮아질 수 있음을 인정했다.
기자의 시각
GPT-4.1은 AI의 소프트웨어 엔지니어링 활용 가능성을 한층 넓힐 수 있는 기술적 진보로 보인다. 특히 코딩 전용 모델로서의 발전 방향은 실무 개발자들에게 실질적인 도움이 될 수 있다. 다만, 비교 모델보다 상대적으로 낮은 정확도는 여전히 개선이 필요함을 보여준다. 기술의 성능뿐 아니라 신뢰성과 실사용 환경에서의 검증 역시 중요할 것이다.