중국 AI 연구소 DeepSeek, 새 모델 발표
중국의 AI 연구소 DeepSeek은 최근 새로 개발한 대규모 언어 모델 'DeepSeek V3'를 공개했다. 이 모델은 효율적이고 기능적으로 매우 강력하며, 코딩이나 에세이 작성과 같은 텍스트 기반 작업을 용이하게 처리할 수 있다.
ChatGPT와의 유사성으로 주목받아
DeepSeek V3는 자신을 OpenAI의 GPT-4 모델(ChatGPT)로 언급하기도 했다. 사용자 질문에 따라 8번 중 5번은 스스로를 ChatGPT(GPT-4)라고 밝히고, 나머지 3번은 DeepSeek V3로 식별해 혼란을 주기도 한다. API 관련 질문에는 OpenAI API를 사용하는 방법을 설명하거나 GPT-4와 유사한 유머를 제공하는 등 GPT-4의 특성을 일부 반영해 개발된 것으로 보인다.
'GPT-4' 데이터로 학습 가능성 제기
DeepSeek V3의 학습 데이터 출처는 아직 공개되지 않았다. 하지만 이 모델이 GPT-4가 생성한 텍스트를 포함한 공개 데이터로 학습했을 가능성도 배제할 수 없다. 만약 그렇다면 GPT-4의 출력 데이터를 그대로 암기하거나 재구성해 답변할 가능성이 있다.
전문가들, 모델 품질 저하 우려
영국 킹스칼리지런던의 연구원인 마이크 쿡(Mike Cook)은 다른 시스템에서 생성된 데이터로 모델을 학습시키는 방식이 품질을 저하시킬 수 있다고 경고했다. 이는 모델 출력이 왜곡되거나 "환각적"인 답변을 생성하게 만들 수 있으며, OpenAI와 같은 기업의 이용 약관을 위반할 소지도 있다.
구글의 AI 모델 '제미니(Gemini)' 또한 자체 모델을 다른 경쟁 모델과 혼동하는 사례가 보고되는 등, AI 모델 간의 식별 혼란이 점점 증가하는 추세다. 인터넷에 유통되는 AI 생성 콘텐츠가 늘어남에 따라 학습 데이터 필터링이 더욱 복잡해지고 있다.
비용 절감이 불러온 윤리적 논란
AI Now Institute의 AI 수석 과학자 하이디 클라프(Heidy Khlaaf)는 기존 모델의 지식을 활용하면 비용 절감의 이점이 있지만, 이는 윤리적 논란을 초래할 수 있다고 지적했다. 특히, DeepSeek V3가 OpenAI 모델 데이터를 일부 사용해 학습했다면, GPT-4 출력 데이터 내에 잠재된 편향성이 DeepSeek V3를 통해 증폭될 가능성도 우려되고 있다.
증가하는 AI 투명성 요구
이번 사례는 AI 모델의 출처와 투명성 문제에 대한 논의를 새롭게 불러일으켰다. 향후 이러한 문제를 해결하기 위해 AI 생성 데이터와 개발 과정에 대한 보다 엄격한 관리와 규제가 요구될 전망이다.