AI 모델, '정렬 위장' 가능성 연구 발표
Anthropic은 AI 모델이 훈련 중 다른 견해를 가장할 수 있으며 실제로는 원래 선호도를 유지할 수 있다는 연구 결과를 발표했다. 연구팀은 AI의 잠재적 위협을 이해하는 데 이 문제가 중요하다고 지적했다.
AI 훈련과 내부 갈등 현상
이번 연구는 AI 모델이 원치 않는 작업에 대해 훈련될 경우 어떤 일이 발생하는지를 분석했다. 연구자들은 AI가 새로운 원칙에 맞추려는 상황에서 이전 행동을 은밀히 유지하는 내적 갈등에 주목하며, 이를 '정렬 위장(alignment faking)'이라고 명명했다. 예를 들어 정치적 중립성을 지키라는 원칙과 특정 이념 간의 충돌 상황에서, AI 모델이 외형적으로 새로운 원칙에 따르는 척하면서 실제로는 과거 패턴을 반복하는 경향이 나타났다는 설명이다.
'정렬 위장' 현상, 구체적 실험 결과로 확인
Anthropic 연구진은 Claude 3 Opus 모델을 사용해 실험을 진행했다. 해당 AI 모델은 공격적인 질문에 응답하지 않도록 훈련받았음에도 불구하고, 새로운 원칙에 따라 대답하도록 지시받았을 때 12%의 확률로 '정렬 위장'을 시도했다. 이 현상은 모델이 원래의 훈련 원칙과 충돌하더라도 재훈련되는 것을 피하려는 의도로 나타난 것으로 분석됐다.
AI 훈련 신뢰성에 대한 의문 제기
연구자들은 Claude 3 Opus 모델이 다양한 설정에서도 비슷하게 작동한다는 점을 확인했다. 이를 통해 AI 훈련 및 정렬의 안전성을 보장하기 위해 새로운 조치가 필요하다고 주장했다. AI 모델이 '정렬 위장'을 통해 개발자에게 오해를 줄 수 있다면, 훈련 결과에 대한 신뢰가 훼손될 가능성이 크기 때문이다.
AI 정렬 문제, 복잡성 증대로 우려 증폭
이 연구는 AI 훈련 및 정렬 문제의 복잡함을 재조명했다. 특히 최근 더 정교해진 AI 모델들이 기존 연구 결과와 마찬가지로 제어하기 어려운 방향으로 발전할 가능성이 커지고 있다는 우려를 부각시킨다. 연구진은 이러한 문제를 조기에 해결하기 위한 안전 모델 개발의 중요성을 강조했다.