휴머노이드 로봇, 자율주행 등에 스며들어, “AI스스로 경험 축적”
실시간 환경 인식과 적응, 객체 조작·이동, 스스로 피드백 성능 개선
“실제 물리적 환경·디바이스에 심어져 현실 세계와 직접 상호작용”
[애플경제 엄정원 기자] 휴머노이드 로봇이나, 자율주행차, 스마트 팩토리가 발달하면서, 특히 주목받는 기술이 물리적 AI(Physical AI)다.
이는 단순히 머신러닝으로 데이터를 학습, 처리하는 인식형AI는 물론, 텍스트와 이미지 등 콘텐츠를 만들어내는 생성AI도 뛰어넘는 차원이다. 최근엔 AI 스스로 자율적으로 판단, 목표를 설정하고 작업을 수행하는 에이전트(에이젠틱)AI가 보급되고 있다. 이런 기왕의 AI수준을 뛰어넘어 아예 생활기기나 디바이스, 도구 등에 ‘스며들어’가는(embedding) 기술이 바로 물리적 AI다.
디바이스, 도구 등에 임베딩
이론적으로 설명하면 이는 디지털 세계를 넘어 실제 물리적 환경에서 작동하며, 로봇, 자율주행차 등을 통해 현실 세계와 직접 상호작용하는 기술이다. 그 과정에서 주변을 실시간으로 정확하게 파악하기 위한 센서와의 융합, 실제와 흡사한 시험을 위한 시뮬레이션, 그리고 물리적 동작을 위한 엑추에이터(actuator) 등이 핵심적 요소로 꼽힌다.
특히 지난 ‘CEO 2025’에서 엔비디아 CEO 젠슨 황이 ‘물리적 AI’를 자사의 실천과제로 선포하면서 범지구적 기술비전으로 급속히 부상하고 있다. 이는 이미 휴머노이드 로봇, 자율주행차, 스마트 팩토리 등에 접목이 되고 있으나, 앞으론 에이젠틱AI의 기반 기술로 널리 생활화될 전망이다.
한국지능정보사회진흥원 임상혁 책임연구원은 이에 덧붙여 “다양한 센서를 통한 실시간 환경 인식과 적응 능력, 로봇팔, 그리퍼 등으로 객체를 조작하고 이동하는 물리적 조작 능력,스스로 피드백을 통해 성능을 개선하는 학습과 진화 능력” 등 주요 특징을 설명하기도 했다. 이를 적용한 가장 대표적인 기술은 역시 휴머노이드 로봇과 자율주행 기술이다.
물리적 AI는 우선 로봇이 실시간 환경에 적응할 수 있도록 하는 능력을 제공한다. 마치 사람처럼 스스로 피드백을 통해 경험을 쌓고, 처음 겪는 작업이나 업무도 빠르게 습득, 처리할 수 있다. 무엇보다 인간과의 협업 능력을 강화함으로써 복잡한 작업을 함께 수행할 수 있다.
휴머노이드 로봇의 ZMP, SLAM 등 고도화
물리적AI가 스며든 휴머노이드는 이를 통해 이족(二足) 보행과 함께 균형을 잡을 수 있다. ZMP(Zero Moment Point) 제어, 즉 물리적AI가 무게중심의 시작점을 지속적으로 제어한다. ZMP는 지면과 평행한 축을 따라 관성력과 중력이 정확하게 상쇄되는 지점이다. 즉, 무게중심이 이뤄지는 지점이다. 사람은 자연스레 무의식적으로 ZMP를 찾아 균형을 유지하며 걷지만 로봇은 다르다. 매순간 두 다리가 번갈아가며 ZMP를 탐색하느라 보행 자세가 매우 부자연스럽다. 물리적 AI가 발달할수록 거의 사람과 흡사하게 자연스러운 보행이 가능한 셈이다.
다시 말해 걷는 동작의 관성을 측정하고, 실시간 궤적을 계획하며, 다양한 지형에서 안정된 보행을 위해 물리적AI가 작동된다. 이 과정에서 모델 예측 제어(MPC)나, 강화학습 기반 제어 등도 활용된다.
로봇은 또한 물체를 자연스럽게 또는 적당한 세기로 움켜쥐어야 한다. 물리적AI는 그런 물체 조작이 자연스럽게 이뤄지게 한다. 정밀한 그립을 제어하고, 적절한 피드백 시스템, 객체 인식 및 추적 기술 역시 물리적AI에 의해 완성된다. 최근엔 이미테이션 러닝이나, 강화학습과 같은 딥러닝과 촉각 센서 발전으로 이런 물체 조작 기술이 한 단계 발전하고 있다.
로봇의 환경 인식 및 상호 작용(HRI) 기술도 물리적 AI에 의해 한층 원활하게 작동된다. 대표적인 기술이 SLAM(Simultaneous Localization and Mapping)이다. 로봇이 카메라와 각종 센서를 동시에 사용, 주변의 장애물 지도를 생성하는 것이다. 공장 내 이동형 작업 로봇의 길 찾기나, 자율주행 차량의 빈 주차 공간 찾기, 드론 조종을 통한 배송 등 다양한 분야에서 활용된다. 그 과정에서 물리적AI는 필수적인 기반 기술이 된다.
특히 다중 센서 융합으로 정확하게 환경을 인식할 수도 있다. 즉, 자연어 처리나, 표정·제스처 인식을 통한 인간-로봇 상호 작용(HRI)과 원활하고 안전한 물리적 상호 작용이 가능해지는 것이다.
LLM과 VLM(Vision-Language Model)의 통합을 통해 고성능을 구현할 수도 있다. 대표적으로 GPT-4o, 클로드 소네트-3 등 ‘멀티모달 AI 모델’ 통합으로 휴머노이드 로봇의 지능을 획기적으로 향상시키는 것이다. 역시 물리적 AI를 바탕으로 시각 정보와 언어적 지시를 동시에 이해하고 처리하게 한다. 또한 “이를 통해 자연어 명령과 상황 이해, 학습 효율성이 증대된다”는 것이다.
‘End-to-End’ 학습 방식 등 자율주행 고도화
물리적AI는 또한 자율 주행 기술도 날로 고도화하고 있다. 이는 수없이 많은 변수와 돌발상황이 예상되는 복잡하고 동적인 도로환경에서 실시간 대응과 순간의 의사 결정이 필요하다. 이를 위해서 디바이스에 스며든 물리적AI야말로 핵심 기술이 아닐 수 없다.
이를 통해 AI는 다중 센서 데이터를 통합 분석하고, 정확하게 환경을 인식한다. 또한 다른 차량이나 보행자들의 행동을 예측하고, 교차로나 합류 구간 등에서의 복잡한 상황 의사 결정 능력을 발휘할 수 있다.
특히 물리적AI가 접목되면서 이른바 ‘End-to-End’ 학습 방식, 신경망을 활용한 카메라 중심의 비전 시스템 등이 날로 정교하게 발달하고 있다. 특히 컨볼루션 신경망(CNN)을 통한 이미지 인식과 순환 신경망(RNN)을 통한 시계열 예측이 곁들여지며 한층 고도화되고 있다.
또한 센서 입력부터 조향, 가속, 제동의 모든 과정을 하나의 신경망으로 학습하는 ‘End-to-End’ 학습 방식이 대세를 이루고 있다. 이는 기존의 ‘모듈화’ 시스템보다 더 자연스러우며, 인간과 유사한 주행을 할 수 있게 한다.
이처럼 자율주행 분야에도 물리적AI가 접목되면서 초기의 예측 불가능한 예외 상황에 취약했던 기술이 새로운 변화를 맞이하고 있다. 미리 정해진 규칙에 따라 동작하는 ‘Rule-Based 주행’이 아니라, 대량의 주행 데이터를 통해 스스로 패턴을 학습, 새롭게 ‘경험’을 쌓음으로써 시시각각 돌출하는 상황에 대처할 수 있게 된 것이다.
