애플, AI 학습 위해 '개인 정보 수집 없는' 새 전략 도입
애플은 AI 모델을 훈련하는 방식에 있어 기존과 다른 독자적인 전략을 수립했다. 사용자들의 아이폰이나 맥에 저장된 실제 데이터를 수집하거나 복사하는 대신, 사용자의 행동을 모방한 '합성 데이터(synthetic data)'와 '차등 개인정보 보호(differential privacy)' 기술을 활용하기로 한 것.
이러한 접근 방식은 특히 이메일 요약, 텍스트 생성과 같은 기능 개선에 초점을 맞춘 것으로, 애플은 개인 이메일이나 메시지에 접근하지 않으면서도 AI 기능의 정확성과 품질을 높이기 위한 길을 모색하고 있다.
개인 데이터는 수집 금지… 합성 데이터로 대체
기기의 분석에 동의한 사용자들에 한해, 애플은 AI 모델이 생성한 이메일 유사 합성 메시지와 기기 내에 저장된 실사용자의 로컬 콘텐츠 일부를 비교하도록 한다. 기기는 이 중 유사도가 가장 높은 합성 메시지를 판별하고, 해당 항목에 대한 정보만 애플 서버에 전송한다. 이 과정에서 실질적인 사용자 데이터는 외부로 전송되지 않으며, 통계적으로 집계된 정보만 공유된다.
이는 개개인의 민감한 데이터를 보호하면서도, 이메일 요약이나 장문 자동 완성 등 고난도 텍스트 생성 기능을 더욱 정교하게 다듬는 데 도움을 준다.
Genmoji·이미지 기능에도 확대 적용
애플은 이 방식의 적용 범위를 확대하고 있다. Genmoji 생성, 이미지 플레이그라운드, 글쓰기 도구 등에도 이 같은 원리를 적용해 AI 기능 고도화에 나섰다.
특히 Genmoji 기능에서는 다수 사용자의 기기를 익명으로 분석해 인기 있는 프로프트 조각을 추출한다. 개인 사용자에게서는 어떤 요청이 있었는지 추정할 수 없도록 처리돼 개인정보 유출 우려는 없다는 게 애플의 설명이다.
AI 학습 위한 핵심 데이터는 ‘임베딩’
애플은 이메일 요약처럼 복잡한 작업을 위해 수천 개의 합성 메시지를 제작하고, 이를 언어, 어조, 주제 등에 따라 수치화된 표현인 '임베딩(embedding)' 형태로 전환한다. 이후 사용자 기기는 로컬에 저장된 실제 데이터를 바탕으로 가장 유사한 임베딩을 찾아내고, 이 중 하나만 애플과 공유한다. 이렇게 수집된 데이터는 AI 모델의 훈련 자료로 재가공되어, 더욱 정교한 이메일 요약과 텍스트 생성 기능으로 발전한다.
이 모든 과정은 사용자 데이터를 서버에 저장하지 않고, 기기 내 분석과 익명화된 통계를 중심으로 진행돼 지속적인 AI 고도화와 개인 정보 보호를 동시에 추구하고 있다.
새 시스템, iOS 18.5 등 베타에 우선 적용
이번에 발표된 시스템은 iOS 18.5, iPadOS 18.5, macOS 15.5의 베타 버전에서 우선 적용될 예정이다. 애플은 Siri 팀의 인력 변동과 일부 기능 출시 지연 등 AI 관련 난관을 새로운 기술 접근 방식으로 극복하려는 모습을 보이고 있다.
이 기사는 애플이 타사와는 전혀 다른 방식으로 AI 개발을 진행하며, 개인 정보 보호를 최우선으로 두고 있다는 점에서 주목할 만하다. 특히, 일반적인 빅테크 기업들이 사용자 데이터를 수집해 AI 훈련에 활용하는 방식과는 차별화된 전략을 택함으로써 기술과 윤리 사이에서 균형 잡힌 진화를 시도하고 있다는 인상을 준다. 앞으로 실제 사용자 경험에서 얼마나 만족도 높은 결과물을 만들어낼 수 있을지 기대된다.