자율주행기술, ‘End-to-End→Sim2Agent→코스모스’

인간 수준 레벨4, 레벨5 지향 기술 가속화, 언어모델 접목도 시각-언어 파운데이션 모델도…무한 데이터와 시뮬레이션 자연어 기반 사용자와 피드백, ‘시뮬레이션 기법 한계 극복’

2025-02-13     전윤미 기자
자율주행 자동차 이미지. (이미지=셔터스톡)

[애플경제 전윤미 기자] 웨이모 등 자율주행차량이 실제 운행 과정에서 사고나 각종 문제점을 노출하며 기술적 한계를 드러내기도 했다. 그럼에도 불구하고, 핵심기술이 자율주행 인공지능 기술은 꾸준히 발전, ‘레벨5’라는 궁극적 목표 지점을 향하고 있다. 특히 지난 CES 2025에서 엔비디아가 발표한 ‘코스모스’(Cosmos) 등과 같이 기존 시뮬레이션 기법의 한계를 극복하고, 수십억 마일에 달하는 주행 데이터를 만들어 내는 등 최근 더욱 기술 발전의 가속도가 붙고 있다.

시뮬레이터로 주행 데이터 확장, 다양한 주행 환경 생성

이에 관해 지속적 연구를 해온 민경욱 한국전자통신연구원 실장은 “최근엔 모듈러 End-to-End 기술로 인지와 예측, 판단 기능을 통합하는가 하면 시뮬레이션 기법을 한층 고도화한 Sim2Real이나 Sim2Agent 등으로 발전하고 있다”면서 “특히 엔비디아의 ‘Cosmos’ 등과 같이 데이터를 수 십 억개로 확장하는 기법에까지 이르고 있다”고 최근의 동향을 전했다.

그가 펴낸 연구보고서에 의하면 애초 기존의 개별적인 인지, 예측, 판단 기술은 최근엔 통합 학습이 가능한 ‘모듈러 End-to-End’ 기술로 발전하며 자율주행 성능을 높여가고 있다. 또한 기존의 규칙 기반 판단 기술이나 지도학습의 한계를 극복하기 위해 강화학습 판단 기술이 적용되고 있다. 나아가선 기존 자율주행 기술에 많이 쓰이던 가상환경 시뮬레이션을 한층 발전시키고 있다 즉, 실제 주행 데이터를 확장하고, 가상의 다양한 주행 환경과 주행 상황을 생성할 수 있는 시뮬레이션 기술이 그것이다.

최근엔 LLM과의 융합을 통한 자율주행 기술에까지 이르고 있다. 즉, LLM의 학습 데이터 자동 생성과 학습, 그리고 자연어를 기반으로 사용자와 상호작용하고 피드백을 통해 성능을 개선하고 있다. 이는 결국 레벨4 내지 인간 수준의 레벨5에 한발 가까이 다가서는 성과로 평가된다.

자율주행기술 이미지. (이미지=123 RF)

모듈끼리 상호작용 ‘모듈러 End-to-End’

그 중 ‘End-to-End’ 자율주행은 하나의 연결된 인공신경망을 통해 입력 센서 데이터로부터 직접 출력 제어 명령을 생성하는 기술이다. 이는 그러나 성능의 한계를 보이면서 상용화에는 제약이 있었다.

이에 End-to-End 기술을 좀더 발전시킨 ‘모듈러 End-to-End’ 기술이 등장했다. ‘모듈러 End-to-End’는 말 그대로 모듈 구조를 활용한 방식이다. 즉 “모듈 하나하나의 결과값을 전달하는 대신, 모듈 간에 특징값(intermediate representations)을 전달, 학습 과정에서 모듈 간의 상호작용과 최적화를 가능하게 하는 것”이다. 다시 말해 모듈끼리 서로 각자의 ‘특징값’을 교환하고 피드백함으로써 최적화된 기능을 발현하는 원리다. “이를 통해 전체 시스템의 통합 성능을 개선할 수 있다”는 설명이다.

이는 모듈마다 서로 분리되어 상호작용이 불가한 상황을 개선한 것이다. 그럼에도 “한층 통합적이고 유기적인 학습 방식을 도입하는 것이 중요하다”는 지적이다.

자율주행의 ‘판단’ 기능을 위해선 모방학습과, 강화학습, 또는 모방학습과 강화학습을 융합한 형태의 자율주행 판단 기술이 있다. 그 중 모방학습과 강화학습을 융합하는 방식이 가장 성능이 뛰어난 것으로 기대되고 있다. 그러나 모방학습은 실제 잘 일어나지 않거나, 경험하기 힘든 주행 환경이나 상황을 예상, 대처할 수 없다는 게 문제다. 이를 극복하기 위해선 물론 강화학습이 유용하긴 하다. 그러나 그 역시 흔치않은 주행 환경이나 경험, 돌발적인 위험 상황, 교통사고 등과 같이 실제 상황이 벌어지지 않고선 데이터를 수집하기 어렵다는게 문제다.

이에 웨이모의 경우 그 대안으로 시뮬레이터를 활용한 데이터 생성, 즉 Sim2Real(Simulation-to-Reality)를 채택하기도 했다. 그러나 이는 실제 환경에서 그 성능을 보장하기 어렵다는 지적이다.

웨이모는 이같은 ‘Sim2Real’ 문제를 해결하기 위해 강화학습용 데이터셋을 아예 실제 환경에서 직접 수집, 학습에 활용하고 있다. 이와 함께 최적의 학습 성능을 제공할 수 있는 새로운 시뮬레이터인 ‘SimAgent’를 개발하고 있다. 이는 시뮬레이터와 실제 환경 데이터를 결합, ‘판단’을 위한 인공지능의 한계를 극복하기 위한 것으로 “현재까지 연구된 방법 중 가장 발전된 기법”이란 평가다.

엔비디아, CES2025에서 ‘Cosmsos’ 소개도

그런 가운데 특히 엔비디아도 자율주행 기술 부문에서 선진적인 대안을 잇따라 제시하고 있어 눈길을 끈다. 이 회사는 ‘End-to-End’ 기술의 한계를 극복하기 위해 자율주행 기술 개발을 위해 폐쇄 루프(closed-loop) 조건에서 ‘End-to-End’ 시뮬레이션 기술을 개발, 이를 ‘CES 2025년’ 기조연설에서 발표했다. CEO 젠슨 황에 의해 소개된 이 기술은 실제 주행 데이터를 가상환경으로 확장하기 위해 ‘Omniverse’와 ‘Cosmos’ 플랫폼이 핵심적인 역할을 한다.

‘Omniverse’는 실주행 데이터를 바탕으로 물리적으로 정확한 3D 환경을 생성하는 기술이다. 또 ‘Cosmos’는 이 데이터를 활용해 자율주행 ‘End-to-End’ 인공지능 모델을 학습하고 평가하는 기술이다. 젠슨 황은 기조연설에서 “물리적으로 일관된 데이터를 생성, 시뮬레이션을 통해 수십억 마일에 달하는 주행 데이터를 만들어 낸다”면서 특히 “ 폐쇄 루프 구조를 통해 인공지능 모델이 학습한 결과를 다시 시뮬레이션에 반영함으로써 모델을 지속적으로 정교화한다.”고 소개했다.

환경 변형, 실제의 수천 배 데이터 생성도

민경욱 실장은 “Cosmos를 활용하여 생성된 데이터는 실제 환경 데이터를 기반으로 다양한 환경 조건과 교통흐름을 변형해서 수백, 수천 배의 데이터를 증강할 수 있다”며 “이를 통해 현실에서 학습하기 어려운 드문 시나리오까지도 미리 예측, 대응할 수 있다”고 설명했다. 특히 “시뮬레이션과 실제 환경 데이터(Sim2Real) 간의 물리적 일관성을 강화, 기존 시뮬레이션의 한계를 극복하며, 희귀 상황도 학습하고 있다”고 덧붙였다.

언어모델을 자율주행에 적용하는 기법도 날로 발전하고 있다. 그 중 시각-언어 파운데이션 모델을 이용한 기술도 발달하고 있다. 이는 자율주행 학습 데이터를 대규모로 자동 생성, 학습하는 것이다. 이는 무엇보다 데이터 부족 문제를 해결하고, 모델의 학습 성능을 크게 높일 수 있다는게 장점이다.

또 차량과 승객과의 상호작용을 십분 활용하기도 한다. 승객, 즉 사용자와의 피드백을 통해 성능을 개선하는 언어 기반 자율주행 학습 기술이라고 할 수 있다. 이는 “차량이 상용화 단계에서 사용자와의 상호작용을 강화하는 데 효과적”이란 설명이다.