제어를 위한 강화학습 알고리즘, 계층적 제어와 스킬 구성 기술
‘멀티모드’와 증류 기술, 원격 조작과 사람 시연 통한 모방학습
인간의 전신 동작을 휴머노이드에 모방시키거나 표현력 있게 재현
사람의 언어와 시각 정보로 휴머노이드에게 고차원 인지능력 부여

 휴머노이드 로봇. (출처=언스플래시)
 휴머노이드 로봇. (출처=언스플래시)

[애플경제 엄정원 기자] 사람과 흡사한 휴머노이드는 IT와 AI기술의 결정판이라고 할 수 있다. 이에 관한 기술도 날로 발전하며, 그야말로 ‘제2의 인간’ 내지 ‘인공 인간’ 경지를 기대하게 한다. 이를 위해 휴머노이드 로봇의 동작 생성과 제어, 계층적 제어와 스킬 구성, 원격 조작 시스템, 사람의 동작을 그대로 본뜨는 기법, 전신 제어, 접촉력 제어 등 최첨단의 핵심 기술을 개발하거나 적용하고 있다.

우선 휴머노이드 제어를 위한 강화학습 알고리즘이 발전하고, 훈련 효율화 기법도 발달하고 있다. 실제로 2025년 들어 기존 TD3(Twin Delayed DDPG) 알고리즘을 개량한 FastTD3가 대안이 되고 있다. TE3, 즉 ‘연속형 액션에 특화된 강화학습 알고리즘’이 필요한 것이다. 그 결과 단일 GPU로 불과 3시간 만에 다양하고 안정적인 보행ㆍ조작이 가능해지면서, 기존 강화학습에 비해 훈련 시간도 획기적으로 단축되었다.

이와 유사한 기술로 궤적 최적화와 강화학습을 혼합한 AMO(Adaptive Motion Optimization)도 있다. 이는 먼저 궤적 최적화로 예비 동작을 만들고, 강화학습으로 온라인으로 적응시키는 기법이다. “강화학습만으로 학습한 정책보다 안정성과 명령 대응력이 향상되었다”는 평가다. 실제 중국의 유니트리 G1 로봇은 이런 기술을 접목, 접을 수 있을 정도로 유연한 디자인과 휴대가 용이한 크기로 만들어졌다.

여러 동작을 통합적으로 수행하는 계층적 제어와 스킬 구성 기술도 중요하다. 이에 관해 강동엽 한국전자통신연구원 책임연구원은 “개별 동작마다 별도의 정책이나 제어기를 만들기보다 단일 정책이 여러 모드를 통합하는 것이 이상적”이라고 했다. 이에 ‘스킬블렌더(SkillBlender)’라는 계층형 강화학습 프레임워크가 적용되고 있다. 이로써 휴머노이드의 보행과 조작을 아우르는 다목적 작업 수행이 가능해졌다.

‘스킬블렌더’는 우선 보행, 물체 들기, 팔 뻗기 등 태스크와 무관한 기본적인 스킬 네 가지를 사전에 학습한 후, 통합적 기술이 이들을 연속적으로 혼합, 새로운 작업을 수행한다. 일를 통해 “높은 수준의 작동에 적합한 스킬들을 조합, 복잡한 로코-매니퓰레이션(Loco-manipulation) 작업을 달성할 수 있었다”는 설명이다. 또 범용성을 위한 ‘보상 함수’를 일일이 미세하게 조정하지 않아도 가능해졌다.

이 외에도 여러 제어 모드를 하나로 합치는 ‘멀티모드’ 정책 증류(policy distillation) 방법, 즉 HOVER(Humanoid Versatile Controller)라고도 하는 기술이 최근 공개되었다. 이는 자유보행, 제자리 회전, 물체 조작, 테이블 작업 등 네 가지 개별 정책을 먼저 각각 훈련하고 이를 단일 네트워크로 통합하는 기술이다.

전문가들이 생성한 동작 데이터를 모두 모아 하나의 통합된 동작 모드를 학습시킨다. 이는 모드 전환이 자유로우면서도 각 모드의 성능을 유지할 수 있다는게 특징이다. 이에 로봇이 걷다가도 바로 다양한 상체 동작으로 부드럽게 연결될 수 있다.

 휴머노이드 로봇. (출처=아시모)
 휴머노이드 로봇. (출처=아시모)

원격 조작 시스템과 함께 실제 사람의 시연을 통한 모방학습도 활용되고 있다. 그 중 ‘CLONE’ 시스템은 가상현실 헤드셋과 트래킹 장치를 착용한 사용자의 머리나 손동작을 실시간으로 추적, 로봇에 적영시키는 기술이다. 상ㆍ하체를 별도로 제어했던 기존 방식과도 다르다. 정밀한 전신 모사를 위해 여러 전문적 네트워크가 조합, 입력 자세에 대한 최적의 출력 명령을 산출한다.

실시간 위치 피드백을 도입, 오차 누적에 의한 오작동을 방지한다. 장시간 원격 조종을 하는 과정에서 로봇이 점차 위치가 흐트러지는 문제도 해결했다. 이를 통해 “바닥에 떨어진 물체 집기”와 같은 복잡한 조작도 가능하게 되었다.

‘TWIST(Teleoperated Whole-Body Imitation System)’ 기술도 있다. 이는 모션 캡처 데이터를 활용한 오프라인 학습 방법이다. 인간의 전신 움직임을 로봇의 타깃 모션으로 설정하고, 이를 강화학습과 행동복제로 모방할 수 있도록 한다. 실시간 조작은 아니지만, 하나의 모드로 통합해, 보행, 물건 들기, 물체 조작, 제스처 표현 등 폭넓은 기술을 익힐 수 있다.

외골격 장치를 이용한 휴머노이드 원격 조작 시스템도 있다. 사용자는 상반신에 로봇과 형상이 동일한 착용형 외골격 팔을 장착하고 양손에 촉각 장갑을 낀다. 이때 다리 동작은 발판으로 지시한다. 이런 전신 조종석을 통해 사용자가 휴머노이드의 상체 자세와 손동작, 하체 움직임을 동시에 정밀 제어할 수 있다.

인간의 전신 동작을 휴머노이드에 모방시키거나 표현력 있게 재현하는 기술도 날로 발전하고 있다. ‘ExBody’ 연구가 대표적이다. 이는 대규모 인간 모션 데이터로부터 휴머노이드의 표현력 있는 움직임을 학습시키는 작업이다.

인간 모션 중 로봇으로 따라 하기 어려운 부분을 데이터 정제를 통해 걸러낸다. 제한된 범위의 관절 움직임만 모방하도록 유도, 동작할 수 있게 했다.

최근엔 발전된 ‘ExBody2’도 발표되었다. 교사-학생 정책 구조와 이중 모드 훈련으로 매우 높은 충실도의 모방을 할 수 있게 한 것이다. 이때 ‘교사’ 모드는 시뮬레이션에서 얻은 특권 정보를 활용해 인간 동작을 정확히 따라 하도록 학습한다. 그 후 ‘학생’은 과거 관측만으로 교사를 모방하도록 훈되었다. 또한, 로컬 좌표계로 목표 자세를 추적하고 주기적으로 기준 프레임을 리셋하는 기법도 적용된다. 그 결과 달리기, 춤추기, 펀치 동작 등 역동적인 연속 모션을 균형을 잃지 않고 재현할 수 있다.

보행과 조작을 통합한 ‘로코-매니퓰레이션’ 기반의 전신 제어, 접촉력 제어, 균형 유지 기술도 주목된다. ‘로코-매니퓰레이션’은 휴머노이드 로봇이 걷기와 물체 조작을 동시에 수행하는 기법이다. 가장 도전적인 문제 중 하나로 지목된다.

이는 학습기법을 통해 휴머노이드의 전신 제어 능력을 크게 향상시킨다. 문제는 로봇의 자세 안정성과 힘 정확도를 모두 달성하는 것이다. 이를 위해 최근 하체와 상체를 별도 정책으로 훈련시키는 이중 에이전트 강화학습 프레임워크가 적용되고 있다. 이때 하체 기술은 외부의 힘 속에서도 안정 보행을 책임진다. 상체 기술은 물체를 잡고 미는 등 ‘엔드 이펙터’ 힘 조절을 담당하며, 하체 쪽 흔들림을 보정한다.

휴머노이드에게 인간의 동작을 모사하게 하는 훈련기법도 활용되고 있다. (출처=언스플레시)
휴머노이드에게 인간의 동작을 모사하게 하는 훈련기법도 활용되고 있다. (출처=언스플레시)

인간의 언어 명령과 시각 정보를 활용, 휴머노이드에게 고차원 인지능력을 부여하는 비전-언어 기술도 발달하고 있다.

구글의 ‘PaLM-E’ 등은 로봇에게 자연어로 명령을 내리고 복잡한 작업을 수행시키는 개념증명까지 선보인 바 있다. 휴머노이드 분야에서도 이러한 대규모 모델을 접목한 시도가 등장하고 있다.

2025년에 ‘Being-0’이라는 비전-언어-로봇 통합 에이전트가 발표되었다. ‘Being-0’은 우선 대규모 VLM을 통해 장면을 이해하고 언어 지시를 해석한다. 그런 다음 미리 준비된 모듈식 스킬들을 호출, 실행하는 기술이다. 그래서 휴머노이드 로봇에 “탁자 위 빨간 컵을 집어 싱크대로 가져다 놓아라”와 같은 복잡한 언어 명령을 받아들여, 동작을 정확히 하기도 한다.

저작권자 © 애플경제 무단전재 및 재배포 금지