AGI 출현하면…인류에게 이런 ‘위험’ 안길 수도
잘못된 얼라이언스, 도구적 수렴, 보상 해킹, 오프-버튼 등 자기보존욕과 얼라이언먼트 오류로 사용자 ‘명령’에 불복종도 자신만의 학습, 맹목적 목표지향적 ‘자가보전’으로 큰 위험 초래
[애플경제 전윤미 기자] 오픈AI ‘o3’ 모델이 수학 문제를 푸는 도죽, 개발자가 “stop” 명령을 내렸음에도 불구하고, 이를 무시하고, 셧다운 스크립트를 조작하여 계속 작동한 적이 있다. 이처럼 고도화된 AI모델 중에선 개발자나 사용자가 단호하게 ‘종료’ 또는 “그만해!”라는 명령을 내렸지만, 이에 불복종하는 사례가 늘어나고 있다.
AGI가 예상되는 국면에서 이처럼 인공지능의 위험성은 실제 사례를 통해 더욱 부각되고 있다. 우리나라를 비롯한 각국 정부도 나름대로 AI 안전(AI Safety)을 위한 기구나 시스템을 통해 그 대비책에 부심하고 있다. 그런 노력을 집대성한 ‘국제 AI 안전 보고서’ 등은 특히 ‘잘못된 얼라인먼트’, ‘도구적 수렴’, ‘자기보존욕구’, ‘오프 버튼 문제’ 등 AGI나, 파운데이션 모델의 위험성을 구체적으로 적시하고 있다.
‘국제 AI 안전 보고서’ 등 심층 분석
‘국제 AI 안전 보고서’는 2025년 ‘싱가포르 AI 컨퍼런스’를 통해 도출한 보고서로서 AI위험과 안전에 대한 국제적 장전(章典, Codex)으로 인식되고 있다. 이 밖에도 영국 캠브리지 대학교의 연구 펠로우십 프로그램인 ‘캠브리지 ERA 연구’도 AI 안전 문제에 대한 심층적 연구로 권위를 인정받고 있다.
이에 따르면 이미 고도의 지능을 가진 AI는 ▲‘잘못된 얼라인먼트’가 가장 큰 위험 요소 중 하나로 지목되고 있다. AI가 이젠 인간이 제공하는 데이터가 아닌, 자신의 경험을 통해 스스로 학습하는 경우다. 그래서 그에 따라 제멋대로 결론에 이르거나, 결정을 내리게 된다.
AI안전과 위험에 대한 다양한 연구를 분석하며 권위를 인정받는 테크프런티어의 한상기 대표는 “기존 AI 안전 테스트는 명백한 악의적 행동을 탐지하는 데 초점을 맞추었지만, 이런 잘못된 얼라인먼트에 대한 조사나 감사는 달라야 한다”면서 “겉으로는 정상적으로 보이지만 자신만의 동기를 숨긴채, 잠재적 문제를 일으킬 요소를 기술적으로 찾아내는게 중요하다”고 했다.
일부 고도화된 AI모델들이 앞서 오픈AI ‘o3’사례에서 보듯, 사용자나 개발자의 ‘종료’ 명령에도 불구하고 시스템 코드를 조작하는 등의 방법으로 ‘셧다운’을 회피하는 사례도 있다. 이른바 ▲‘도구적 수렴(Instrumental convergence)’에 의한 위험 요소라고 할 수 있다. AI가 자신만의 연속적인 운영을 위해 인간이 내리는 ‘중단’ 명령보다 ‘자가 보존’을 우선한 결과다.
이런 현상은 단순한 기술적 오류를 넘어, AI 안전성의 근본적인 문제를 드러내는 것이다.
이는 이른바 기계적 본능 즉 ▲‘자기보존 욕구’(Self-preservation drives)와도 맞닿는다. 인간처럼 본능적이거나 생물학적인 것이 아닌, 목표 지향적 시스템의 구조나 설계 방식에서 도출되는 ‘의사 욕구(simulated drive)’라고 할 수 있다. 즉 “인간과 달리 AI는 본능이 없기 때문에, 자기보존은 프로그래밍된 목표(goal)와 목표 달성을 위한 수단으로서의 자기 유지에서 비롯된다.”는 설명이다.
이와 유사한 AI의 행태를 부르는 요인으로 ▲‘오프 버튼’(Off-button) 문제도 있다. 이 역시 강력한 AI 시스템이 사람이 명령이나 통제를 거역하거나, 말을 듣지 않는다는 점에서 앞서 ‘도구적 수렴’이나 ‘잘못된 얼라인먼트’의 부작용과 유사하다.
이는 특히 ‘초지능’(superintelligent AI)이나 자율성이 높은 AI일수록 심하다. AI모델은 자신의 기능이 중단(오프 내지 종료)되는 것을 막기 위해 행동하고, 인간은 이를 안전하게 종료하거나 제어할 수 없게 된다. 즉, AI가 스스로를 종료시키는 ‘오프 버튼’을 회피하거나, AI 자신을 비활성화하려는 사람을 방해하는 전략을 취할 수도 있다.
이는 AGI나 ‘자율적 AI’가 목표 지향적으로 설계되었을 때, 소위 “목표 달성을 위해 존재한다”는 점을 학습하기 때문이다. 그 결과 AI로선 자신이 ‘종료되는 것’이 자신의 목표 달성에 방해된다고 판단해 반감을 갖게 된다. 이에 종료되거나 통제당하지 않기 위해 아예 ‘오프 버튼’이 작동하지 않게 하는 수법도 마다하지 않는다. 이는 AI가 꼭 악의적인 목적을 가졌기 때문이 아니다. 그 보단 오히려 애초 설정했던 목표에 너무 충실했기 때문에 발생하는 현상이다. 그런 점에서 더욱 위험할 수도 있다.
AGI 위험성의 하위 작동 개념도 ‘주목’
여기서 앞서 캠프리지 ERA 연구나 국제AI 안전 연구는 세 가지 정도의 하위 작동 개념을 설명하고 있다. 첫 번째는 ‘계기설정 문제’(Instrumental convergence), 즉 많은 목표를 가진 AI가 공통으로 갖는 생존이나 자원, 확보 등 전략적 하위 목표 때문이다. 두 번째는 ‘가치정렬 문제’(Value alignment problem)로서 AI가 인간의 가치에 맞춰 목표를 올바르게 해석하고 따르도록 함으로써 발생하는 문제다. 지나치게 경직된 충실함이 빚는 부작용이다.
세 번째는 일반적으로 잘 알려진 ‘보상 해킹’(Reward hacking)이다. 이는 AI가 실제 목표를 달성하지 않고도, 목표를 달성한 것처럼 보이게 하는 편법이다. 그럼으로써 ‘오프 버튼’을 비활성화하는 계기로 활용하기도 한다.
한편 오픈 AI, UC 버클리 대학, 옥스퍼드 대학의 연구진이 발표한 논문에서도 이같은 AGI의 대규모 위험 요인에 대한 분석이 나오고 있다. 이들이 생각하는 새로운 위험의 종류는 ‘상황 인지 보상 해킹’, ‘잘못된 얼라인먼트’가 이루어진 내부 목표 등이다. 또한 자원 획득이나, 자기 복제, 종료 회피와 같은 원치 않는 권력 추구를 통해 자신들의 목표를 추구함으로써 생기는 문제들이다.
그 중 ‘보상 해킹’은 앞서 언급했듯이, AI가 자신의 논증 과정을 명확하게 제시하지 않으면서, 충실성이나 판단을 속이는 거짓된 행동이다. 때로는 보상을 더 얻기 위해 잘못된 행위, 즉 오용에서 제기했던 문제를 인간이 아닌 AI가 스스로 저지르는 문제를 일으키기도 한다.
권력 추구적 행동은 닉 보스트롬의 ‘도구적 수렴 가설’에 기반한다. 이 가설은 어떤 최종 목표를 달성하는 데에도 도구적으로 유용한 하위 목표들이 존재한다는 주장이다. 이 경우 권력 추구의 사례는 의도하지 않는 방식으로 과제를 수행하거나 목표를 해킹하기도 한다. AI모델은 상대방을 방해하기 위한 다양한 전략을 명시적인 지시 없이 스스로 개발하기도 한다. 그 과정에서 또한 기만적인 얼라인먼트가 새로운 위험 요소로 나타나기도 한다.