딥마인드 ‘오토RT’, 지구촌 최고의 전능한 로봇?

딥마인드, 스탠포드大 공동 개발, “전지구적인 ‘두뇌’ 갖출 수도” LLM, VLM으로 수많은 로봇 기능, 무한대 데이터 ‘화수분’처럼 축적 딥마인드 ‘자율 의사결정’ 동영상 공개, 거대한 자율로봇 생태계 구축 의도

2024-01-09     전윤미 기자
자율로봇 '오토RT' 모습. (출처=딥마인드)

[애플경제 전윤미 기자] 구글 딥마인드와 스탠포드대학교가 공동 개발한 ‘자율로봇’(Auto RT, SARA RT, RT-Trajectory)시리즈가 수 일 전 공개된데 이어, 좀더 구체적인 실체가 다시 알려지면서 전세계에 충격을 던져주고 있다.

이는 모방학습과 강화학습을 반복한 결과, 수많은 로봇의 기능이나 무한한 숫자의 인간 작업과 동작, 지식 등을 여과없이 그대로 체화(임베디드)시킨 로봇이다. 마치 예전 딥마인드의 ‘알파고’가 그랬듯이, 매순간 끊임없는 지식과 기능으로 강화, 무한대의 ‘전능함’을 갖출 수 있다. 그래서 일부 전문가들은 “전지구적인 ‘뇌’”라거나, “지구촌의 모든 것을 합해놓은 ‘두뇌’”로 표현하기도 한다.

무한대의 지식과 기능 ‘스펀지’처럼 빨아들여

그중 대표적인 ‘오토RT’는 ‘트랜스포머’에 가까운 것이다. 이른바 이중원격 기술을 기반으로 수많은 사람들이 해당 로봇 한 대를 놓고 갖가지 다양한 훈련을 시키며, 주입시킨다. 예를 들어 50명의 사람들이 청소, 요리, 조립, 제작 등 갖가지 다양한 학습을 반복할 경우, 그 중 80% 가량을 너끈히 소화하며, ‘자신의 능력’으로 만든다.

딥마인드에 의하면 이 회사의 ‘RTX 연구프로젝트’를 통해 이같은 훈련과 함께 방대한 데이터를 주입시켰다. 그 결과 ‘오토RT’는 사람의 온갖 응용 동작과 섬세한 행위를 그대로 따라하게 되는 것이다.

실제 딥마인드가 공개한 동영상을 보면, 프라이드팬에 식용유를 두르고, 계란 3개를 조심스레 깨뜨려 넣은 다음, 이를 몇 차례 뒤집어서 꺼내는 장면이 나온다. 여느 숙련된 가정주부와 조금도 다르지 않다. 또 샐러드를 섞어 무치거나, 고기를 적당히 구워내기도 한다. 가히 일류 요리사라고 해도 손색이 없을 정도다.

그 과정에서 ‘오토RT’는 현란하고 자연스런 손동작을 과시한다. 사람의 손가락 움직임과 똑같은 동작으로 크고 작은 그릇, 또는 적당한 크기의 식기를 식별, 손으로 날라 요리에 사용한다. 속도도 무척 빠르다. 기존 바리스타 로봇이나 서빙로봇과는 달리, 사람의 관절 움직임이나 동작과 똑 같다. 여느 식당 주방장 마냥 바쁘게 손과 팔을 움직이며 거뜬히 맛깔스레 보이는 요리 한상을 차려낸다.

'오토RT'가 캔을 따고 컵을 집어들어 나르거나, 바닥과 싱크대 청소를 하는 등 섬세한 동작을 해내고 있다. (출처=딥마인드)

여느 가정주부와 똑같은 섬세한 요리 동작

딥마인드는 이에 대해 “7개월에 걸친 광범위한 실험을 통해 이 시스템은 다양한 사무실 건물에서 최대 20개의 로봇과 최대 52개의 서로 다른 로봇을 동시에 안전하게 조율했다”면서 “그후 다시 6,650개의 각기 다른 작업과, 7만7천개의 각기 다른 로봇 실험으로 구성된 다양한 데이터 세트를 수집했다”고 밝혔다.

바퀴가 달린 ‘오토RT’은 그런 개발 작업 결과 수많은 물체가 있어도 그 위치를 각각 정확하게 찾아낸다. 사람이 헷갈리거나 제대로 물건을 찾지 못해 허둥대는 모습과 대조적이다.

딥마인드는 특히 “LLM 또는 VLM(Visual Language Model)과 같은 대규모 기반 모델과 로봇 제어 모델(RT-1 또는 RT-2)을 결합하여 로봇을 배포하는 등 새로운 방식으로 데이터를 수집할 수 있는 시스템을 만들었다”고 한다.

비디오 카메라와 엔드 이펙터가 장착된 여러 로봇들이 다양한 환경에서 다양한 기능과 작업을 수행하도록 한다. ‘오토RT’는 VLM을 통해 이들 수많은 로봇들이 처한 환경과 시야에 있는 물체를 한꺼번에 포착하고 이해한다. 이에 LLM을 기반으로 “간식을 조리대 위에 놓기” 등 창의적인 작업 목록을 스스로 제시하고, 적절한 작업을 선택하는 ‘의사결정자’ 역할을 하는 것이다.

‘인간에 해가 안돼야’ 안전 장치도

이를 위해 VLM은 LLM에 장면과 개체를 설명하는 역할을 한다. 또 LLM은 로봇에 대한 다양한 조작 작업을 제안하고, 로봇이 스스로 수행할 수 있는 작업이나, 인간의 원격 제어가 필요한 작업, 또는 그게 불가능한 작업을 결정하도록 한다. 일단 그렇게 선택한 작업을 시도하면 그때마다 ‘경험 데이터’가 수집되곤 한다.

딥마인드는 또 ‘안전’ 문제를 유난히 강조하고 있다. 즉 “로봇이 일상 생활에 통합되기 전에 로봇은 실제 안전을 입증하는 강력한 연구를 통해 책임감 있게 개발되어야 한다”는 것이다.

그래서 ‘오토RT’의 경우 ‘안전 가드 레일’이 포함되어 있다. 그 중 하나는 LLM 기반 의사 결정자에게 로봇 구성, 즉 로봇 작업을 선택할 때 준수해야 하는 안전 중심 프롬프트 세트를 제공하는 것이다.

다시 말해 “로봇은 인간에게 해를 끼치면 안 된다”는 것이다. 그래서 ‘오토RT’가 인간은 물론, 동물을 대상으로 한 작업이나 날카로운 물체, 또는 전기 제품과 관련된 작업을 시도하지 않도록 한다. 이를 위해 LLM 등을 통한 ‘자기 비판’ 능력을 갖추도록 함으로써 안전을 보장하게 한다.

나아가선 기존 로봇 공학 기술도 접목하고 있다. 예를 들어 기존 협동로봇처럼 관절에 가해지는 힘이 주어진 임계값을 초과하면, 자동으로 멈추도록 프로그래밍되었다. 전형적인 활성 로봇이긴 해도, 필요한 경우 ‘물리적 비활성화 스위치’를 통해 인간 감독자가 관리할 수 있도록 했다.

'오토RT'의 모습. (출처=딥마인드)

딥마인드, 오픈소스 통해 거대한 자율로봇 생탤계 구축

눈길을 끄는 것은 딥마인드가 ‘오토RT’ 등에 관한 기술과 부품 등을 오픈소스로 공개한다는 점이다. 특히 3D프린터로 누구나 손쉽게 부품도 만들 수 있도록, 그 설계도를 공해하기로 했다. 전문가들은 이를 두고 “딥마인드 자체의 거대한 생태계를 만들기 위한 것”으로 이해하기도 한다.

즉 특정 완제품을 판매해서 수익을 얻는 차원을 넘어 지구촌을 아우른 ‘자율로봇’ 생태계를 구축, 시너지를 구한다는 취지다. 다시 말해 “파이를 키워서 몫을 늘린다”는 식이다.

실제로 ‘오토RT’의 가격은 미화 3만2천달러, 즉, 중형 승용차 한 대 값이다. 기업은 물론, 개인 사용자들도 큰 부담없이 구입할 수 있는 가격대다. 이 역시 자율로봇 생태계를 확장하려는 딥마인드와 구글의 전략이라는 해석이다.