OpenAI, ChatGPT 서비스 중단 원인 분석
새 텔레메트리 서비스 문제로 시스템 마비
OpenAI는 최근 발생한 ChatGPT 서비스 중단 사태의 원인을 분석한 결과, 문제의 핵심은 "새로운 텔레메트리 서비스"라고 발표했다. 이 중단 사태는 2024년 12월 13일 오후 3시경 시작되어 약 3시간 동안 지속되었다.
Kubernetes 메트릭스 배포 문제로 발생
보안 사고는 아냐
OpenAI의 사후 분석에 따르면 이번 서비스 중단은 보안 문제나 최근의 제품 출시와 연관되지 않았으며, Kubernetes 메트릭스를 수집하는 과정에 사용된 새로운 텔레메트리 서비스의 배포 과정에서 문제가 발생했다고 밝혔다. Kubernetes는 응용 프로그램과 관련 파일을 격리된 환경에서 관리하는 소프트웨어로, 클러스터를 효과적으로 운영하기 위해 필수적인 역할을 한다.
제어 평면과 DNS 해석 과정에 치명적 영향
리소스 과다 사용으로 시스템 마비
OpenAI는 새로운 텔레메트리 서비스가 Kubernetes API 작업에 과도한 자원을 소모하도록 만들었고, 이로 인해 대형 Kubernetes 클러스터의 제어 평면이 마비되었다고 밝혔다. 이번 사고는 IP 주소와 도메인 이름 변환을 담당하는 DNS 해석 과정에도 영향을 끼쳐 더욱 복잡한 문제를 초래했다.
시스템 상호작용 실패로 문제 확대
복구에 3시간 소요
OpenAI는 정전을 몇 분 전에 감지했으나, 서버 과부하로 인해 즉각적인 조치가 어려웠다. 여러 시스템과 프로세스가 예측 불가능한 방식으로 상호 작용하며 장애가 확대되었다고 설명했다. 최종적으로 모든 서비스를 안정화하는 데 약 3시간이 소요됐다.
재발 방지를 위한 추가 조치 계획
향후 유사 사고 방지 나서
OpenAI는 이번 사례를 교훈 삼아 유사한 문제가 재발하지 않도록 다각적인 조치를 도입할 예정이라고 밝혔다. 이에 따라 텔레메트리 서비스와 시스템 간의 상호작용을 보다 면밀히 검토하고, 문제 발생 시 신속히 대응할 수 있는 방안을 확립할 계획이다.