허깅페이스, 자율주행 연구 위한 초대형 오픈소스 데이터셋 공개
AI 플랫폼 '허깅페이스(Hugging Face)'가 자율주행 기술 개발을 위한 리로봇(LeRobot) 플랫폼을 한 단계 확장했다. AI 스타트업 야크(Yaak)와의 협업을 통해 ‘러닝 투 드라이브(Learning to Drive, L2D)’라는 새로운 자율주행 학습용 데이터셋을 공개한 것이다.
독일 운전 학원의 실제 주행 데이터를 활용
L2D는 독일 운전학원에서 수집한 센서 데이터를 기반으로 한 것이 특징이다. 지도 교사와 학생들이 실제 도로 환경에서 주행한 정보를 카메라, GPS, 차량 동작 센서 등을 통해 수집했다. 이 데이터셋은 1페타바이트(PB)를 넘는 방대한 규모로, 다양한 주행 시나리오를 포함한다.
기존 방식과는 다른 '입력-출력 직결' 훈련에 중점
기존 자율주행 데이터셋은 정밀한 주석이 포함된 ‘계획 기반(planning-based)’ 학습 방식에 초점을 맞췄다. 반면, L2D는 센서 입력만으로 차량의 행동을 예측하는 ‘엔드-투-엔드 학습(end-to-end learning)’을 지원한다. 예를 들어, 카메라 영상만으로 보행자의 도로 횡단 가능성을 예측하는 식이다. 이는 인간 운전자의 직관적인 판단 방식에 더 가까운 접근법이다.
AI 커뮤니티에 개방…실차 테스트도 예정
허깅페이스와 야크는 이번 여름, 학습된 모델을 실제 차량에 적용해 폐쇄 도로에서 테스트를 진행할 예정이다. 차량에는 안전 운전자가 탑승하며, 실제 환경에서의 판단 능력을 검증할 계획이다. 또한 AI 개발자들에게 라운드어바웃 통과, 주차 등 다양한 과제를 제시하고, 자신이 만든 모델을 제출해 실력을 겨룰 수 있도록 장려하고 있다.
자율주행 기술 오픈소스화의 분기점 될 듯
러닝 투 드라이브 데이터셋은 오픈소스로 제공될 예정이며, 자율주행 기술 개발의 문턱을 낮추고 다양한 개발자들의 참여를 확대할 것으로 기대된다. 실제 도로 환경 기반의 광범위한 데이터 제공은, 향후 인간 수준의 공간 지능을 갖춘 자율주행 시스템 개발에 핵심적인 자원이 될 전망이다.
의견: 이번 L2D 데이터셋 공개는 상업적 제한없이 엔드-투-엔드 방식 자율주행 연구를 가능하게 한다는 점에서 상당한 의미가 있다. 특히 실제 운전학습 데이터를 기반으로 해, 보다 현실적이고 일반화된 AI 모델 개발에 도움을 줄 수 있다. 엔드-투-엔드 방식이라는 점에서 인간 운전자의 직관과 비슷한 학습 경로를 설계할 수 있는 기회이기도 하다. 다만 방대한 양의 데이터를 효율적으로 처리하고 활용하기 위한 연구 인프라 지원 또한 동반되어야 할 것이다.