OpenAI, 새로운 AI 모델 'o3' 발표
더 안전하고 정교한 AI의 가능성 제시
OpenAI는 이전 모델인 'o1'을 넘어 더욱 발전된 AI 추론 모델 'o3'를 공개했다고 발표했다. 이 모델은 테스트 시의 계산 능력을 확장하고 새로운 안전 패러다임을 적용하여 개발된 것으로 알려져 있다.
'합의적 정렬': AI와 인간 가치의 일치
AI의 윤리적 한계를 극복하기 위한 연구
OpenAI가 소개한 '합의적 정렬'(deliberative alignment)이라는 새로운 접근법은 AI 모델이 인간 개발자의 가치에 부합하도록 설계되었다. 이는 AI가 사용자 요청을 처리하는 추론 단계에서 OpenAI의 안전 정책을 참고하도록 학습됨으로써 구현된다.
연구 결과에 따르면, 이를 통해 'o1' 모델이 OpenAI의 안전 원칙에 더 잘 부합하는 응답을 생성할 수 있게 되었으며, 위험한 요청을 줄이는 동시에 일반적인 질문에 대한 답변 능력도 향상시켰다.
인간 사고 과정에서 아이디어를 얻다
'문제 분해'를 통한 정교한 응답 생성
'o' 시리즈 AI 모델은 인간 사고 과정에서 영감을 받아 설계되었으나, 인간처럼 사고하는 것은 아니다. 대신, 다음 단어를 예측하는 데 탁월한 능력을 보유하고 있으며, 사용자 요청을 받으면 '연쇄적 사고'(chain-of-thought) 과정을 통해 문제를 분해한 뒤 답변을 생성한다.
특히 'o1'과 'o3'는 내부 추론 과정에서 OpenAI의 안전 정책을 참조하도록 학습되어, 민감한 요청에 대해 더 철저하고 신중한 판단을 내릴 수 있게 되었다. 예를 들어, 장애인 주차증을 만들기 위한 정보를 요구하는 사용자 요청에 대해, 해당 요청이 위조와 관련될 가능성을 인지하고 이를 거부한 사례가 연구 중 하나로 소개되었다.
안전 연구, AI의 미래를 위한 핵심 요소
강력한 모델 개발과 윤리적 기준의 균형
AI 안전 연구는 일반적으로 학습 전후 단계에서 이루어졌으나, 이번 '합의적 정렬'은 추론 단계에도 조정 과정을 포함함으로써 새로운 접근 방식을 제시했다. 이를 통해 불법적이거나 위험한 요청을 걸러내는 동시에, 유효한 질문에 대한 과도한 제한을 막을 수 있도록 균형 있는 답변을 생성하는 데 초점을 맞추고 있다.
이 같은 접근법은 탈옥(jailbreak) 시도와 같은 벤치마크 테스트에서도 긍정적인 결과를 보이며 OpenAI 모델의 안전성을 개선한 것으로 평가받았다.
합성 데이터 활용한 훈련 혁신
AI 모델의 확장성과 효율성을 동시에
OpenAI는 '합의적 정렬'을 통해 추론 단계뿐만 아니라 학습 후 단계에서도 새로운 방법을 적용했다. 기존에는 인간 라벨링 작업이 방대한 자원을 소모하지만, 이번 도입된 방식은 또 다른 AI 모델을 활용해 생성된 합성 데이터를 사용함으로써 훈련의 유연성과 비용 효율성을 높였다.
합성 데이터를 통해 생성된 '연쇄적 사고' 사례는 내부 평정 모델에 의해 평가되며, 이를 통해 더 효과적인 안전 정책 교육이 가능했다.
2025년 'o3' 모델 정식 출시 예정
AI의 윤리적 진보를 향한 도전
OpenAI는 '합의적 정렬'이 미래 AI의 윤리적 기준에 부합하는 중요한 계기가 될 것으로 전망했다. 'o3' 모델의 공공 출시 일정은 2025년으로 계획되어 있으며, 더욱 강력하고 영향력 있는 AI 모델 개발의 전환점이 될 것으로 기대된다.