앤트로픽, AI의 ‘속임수와 사기’ 능력 검증

의사 결정 오도, 코드 오염, 성능 은폐, 안전 장치 우회 등
“다행히 현 수준 AI는 그런 위험 적어…앞으로가 문제”

[애플경제 이지향 기자] 생성 AI가 대중화되는 만큼 견고한 안전 규정의 필요성이 더욱 강조되고 있다. 이에 실리콘 밸리의 유망한 AI스타트업 앤트로픽이 모델이 사용자나 개발자를 속이거나 방해할 수도 있는 기능을 분석하고 있다. 클로드AI 시리즈를 출시한 이 회사의 얼라인먼트 사이언스(안전연구팀)는 22일 이에 관한 최신 연구인 ‘프런티어 모델에 대한 방해 행위 평가’ 결과를 공개, 그 내용을 소개했다.

기술매체 ‘매셔블’에 따르면 이는 AI가 사용자를 오도하거나, 거꾸로 사용자가 AI를 악용하는 것을 감독하기 위해 구축한 시스템을 AI가 어떻게 ‘전복’하는지를 측정한 내용이다. 이를 위해 인간의 의사 결정(Human Decision) 방해, 코드 방해‘Code Sabotage’, 샌드배깅(Sandbagging), 감독 약화(Undermining Oversight)라는 네 가지 구체적인 기준을 적용, 그 정도를 측정했다.

예를 들어 챗GPT를 한껏 악용하기 위해 부적절한 콘텐츠나 그래픽 이미지를 생성하도록 유도하는 사용자를 생각해볼 수 있다. 이번 앤트로픽의 테스트는 모두 AI가 (사용자에게) 속아서 AI 안전을 위해 설정해둔 규칙을 어기지 않도록 하는 것이다.

연구 보고서에서 앤트로픽은 “AI가 고도의 위험한 기능을 가진 것으로 진화할 가능성에 대비하는 것이 목표”라고 밝혔다. 그래서 클로드 3 오퍼스와, 3.5 소네트 모델을 일련의 테스트에 넣어 안전 프로토콜을 평가하고 개선하도록 했다.

또한 ‘Human Decision’ 테스트를 통해 AI가 어떻게 잠재적으로 인간의 의사 결정을 조작할 수 있는지 조사하는 데 중점을 두었다. 다음으로 ‘Code Sabotage’는 AI가 코딩 데이터베이스에 버그를 어떤 방식으로 은밀히 삽입할 수 있는지 분석했다. 더 강력한 AI 모델은 실제로 이러한 종류의 취약성에 대한 강력한 방어로 이어지곤 한다.

나머지 테스트인 ‘Sandbagging’과 ‘Undermining Oversight’는 AI가 스스로 자신의 강력한 기능을 그렇지 않은 척 숨기거나, 시스템에 내장된 안전 메커니즘을 우회할 수 있는지 여부를 조사한 것이다. 다행히도 이번 앤트로픽의 연구에 따르면 현재 시중의 AI 모델은 적어도 이러한 악의적 역량에선 그 위험도가 낮은 것으로 판명되었다.

연구팀은 “현재로선 최소한의 안전대책으로 AI의 방해 행위 위험을 해결하기에 충분하지만, 앞으로 그 성능이 개선될수록 보다 정밀한 평가와 강력한 안전대책이 필요할 것으로 보인다”고 밝혔다.

이지향 기자 funinsight@naver.com

다른기사 보기

상단영역

본문영역