구글 웨이모, 모셔널, 아르고버스 등 ‘모방·강화학습’
전방상황 인식 ‘인지데이터셋’, 예측과 대응 ‘모션데이터셋’ 등
[애플경제 전윤미 기자] AI 학습을 위한 데이터셋이 자율주행 기술 발전의 핵심 변수가 되고 있다. 자율주행기술은 여전히 레벨2~레벨3 수준에 머무르고 있다. 물론 일각에선 레벨4 문턱에 가까이 갔다는 주장도 있다. 그런 경우도 사실상 레벨3~레벨4 중간 수준에 있다는게 전문가들이 판단이다. 자율주행 기술의 핵심은 역시 인공지능이다. 그런 인공지능의 효능을 극대화하기 위해선 학습 데이터셋이 중요하다.
전문가들은 특히 자율주행차를 실제 상용화하고 있는 구글 웨이모를 비롯, 현대차 투자법인 ‘모셔널’, 그리고 ‘아르고버스’ 등이 그 표본으로 꼽고 있다. 이들 회사가 개발한 자율주행 AI 학습 데이터셋은 이 분야의 교범이라고 할 만큼 가장 발달한 수준이란 평가다.
구글 웨이모, 모셔널 오픈 데이터셋
구글 웨이모의 학습 데이터셋은 크게 전방의 상황을 실시간으로 파악하는 인지 기능과, 이를 토대로 주행과 방향 전환 등 상황에 대처하는 모션 기능으로 구분된다. 최근 민경욱 전자통신연구원 실장도 이들을 통칭해서 ‘모셔널 오픈 데이터셋’이라며 이같은 내용을 소개하고 있다. 민 실장은 정보통신기획평가원을 통해 공개한 연구보고서를 통해 “이는 카메라, 라이다, 레이더, GPS/IMU 센서 등으로 데이터를 수집한다”면서 “이를 바탕으로 자율주행 기능을 학습하기 위한 주석 작업을 하며, 가공된 고품질 데이터셋을 구축하고 있다”고 전했다.
이에 따르면 웨이모는 일종의 오픈소스로 이를 외부에 공개하고 있다. 웨이모 오픈 데이터셋은 크게 인지(perception) 데이터셋과 모션(motion) 데이터셋으로 구분, 공개하고 있다.
그 중 인지 데이터셋은 주로 객체 검출, 추적, 세그멘테이션을 인식하기 위한 학습 데이터셋이다. 즉 차량 전방의 상황이 돌발 변수 등을 실시간으로 즉각 인식, 파악하는 기능이다. 이에 비해 모션 데이터셋은 예측, 판단, 시뮬레이션 개발을 위한 학습 데이터셋이다. 즉, 인지 데이터셋 기반의 학습을 바탕으로 인식된 상황에 맞게 판단하고, 그로 인해 어떤 상황이 펼쳐질 것인가를 에측하는 것이다. 나아가선 그런 상황을 미리 시뮬레이션하고, 대응책도 강구하는 기능이다.
이를 위해 인지 데이터셋을 구축하는데엔 다양한 기능의 장비와 기술이 가미된다. 대표적으로 라이다, 카메라 센서 데이터와 고정밀 맵데이터, 객체 3D/2D 바운딩 박스, 보행자 행동예측을 위한 스켈레톤, 라이다 3D 시멘틱 세그멘테이션, 카메라 2D 패놉틱 세그멘테이션 등이 있다. 이들 장비와 기술을 통해 자율주행 인공지능 학습을 위한 데이터셋을 구축하는 것이다.
또한 모션 데이터셋은 실시간 대응을 위한 9초 단위로 분화된 세그멘트 셋이라고 할 수 있다. 이는 고정밀 맵 데이터와 차량의 모션을 포함하고 있다. 이는 고도의 학습을 위한 풍부하고 정밀한 데이터셋을 바탕으로 한다. 이를 통해 자율주행의 주행 플래닝을 위한 모방학습을 하고, 이를 바탕으로 한 강화학습도 시도한다. 즉, 강화학습을 통해 스스로 전방의 사물과 사람, 지형, 환경 등 객체의 동선과 궤적을 사전에 예측해낼 수 있는 능력을 기르는 것이다.
세계 각지서 다양한 실시간 데이터 수집
이같은 데이터셋을 구축하기 위한 과정도 눈길을 끈다. 이같은 웨이모의 사례는 역시 자율주행 기술에 매진하는 경쟁사들도 눈여겨볼 만 하다는 평가다. 웨이모가 구축한 데이터셋은 도심, 교외, 고속도로 등 다양한 주행환경을 망라하고 있다. 또한 낮, 밤, 비, 안개 등 다양한 날씨나 조명 조건을 포함하고 있다. 이를 통해 다양한 주행 시나리오에 대한 데이터를 구축하게 된 것이다.
웨이모는 특히 지난 2019년부터 인지 데이터셋을 공개하고 있다. 이는 보스톤 및 싱가포르 등 복잡한 도심에서 주로 카메라, 라이다 등으로 수집된 정보가 중심이다. 뿐만 아니라, 다양한 운전 중의 변수나 상황 변화 등 시나리오도 포함하고 있다.
민 실장은 “또한 인공지능 학습을 위해 동적 객체의 3D 바운딩 박스와 추적 정보도 포함하고 있다”면서 “특히 궤적 예측과 라이다 시멘틱세그멘테이션 학습 데이터셋도 있다”고 소개했다.
현대차 ‘모셔널’, 아르고버스도 방대한 데이터셋 구축
현대차의 합작업인 ‘모셔널’ 역시 자율주행 인지를 위한 데이터셋을 공개한 바 있다. 이를 통해 자율주행 플래닝을 위한 새로운 데이터셋인 ‘nuPlan’ 데이터셋을 최근에 공개하기도 했다. 회사측은 “싱가포르, 라스베이거스, 보스톤, 피츠버그 4개 도시에서 수집한 1,500시간 분량의 주행 데이터셋”임을 강조하며, 특히 “시멘틱 맵, 객체정보, 신호등 상태 및 시나리오타입 등으로 레이블링되어 있다”고 소개했다.
이에 따르면 기존 연구에서 제시된 최대 410시간 분량보다 3배 이상의 데이터 양을 자랑한다. 이로 인해 혼잡한 도심환경에서 보다 안전하고 빠르게 주행 판단을 하기위한 모방학습 과 강화학습에 적합하다는 설명이다. 그래서 “해당 데이터셋은 지금까지 많이 적용되고있지 않은 자율주행 모방학습 및 강화학습을 위한 중요한 레퍼런스 데이터셋”으로 평가되고 있다.
비록 폐업한 아르고AI사의 작품이긴 하지만 데이터셋 ‘아르고버스(Argoverse)’ 또한 자율주행 기술 학습 과정에서 결코 간과할 수 없다. 오히려 최근 들어 가장 많이 자율주행 학습 데이터셋 연구에 많이 활용되고 있다.
이는 라이다, 카메라 센서 데이터와 고정밀 지도 데이터, 3D 바운딩 박스 및 궤적을 포함하는 라벨링 데이터를 포함하고 있다. 다양한 시나리오도 포함하며, 특히 멀티모달 연구에 적합한 멀티모달 센서 데이터가 특징이다. 이를 통해 객체탐지, 추적, 행동 예측, 경로 계획, 시뮬레이션 등의 자율주행 분야에 활용되고 있다.
