화제의 GPT-4.1, 정작 안전 검증은 허술?

GPT-4.1, 시스템 카드 생략…검증 절차 축소로 논란
오픈AI, 경쟁사 신모델 속도에 대응해 AI 안전 기준 조정
오픈AI, GPT-4.1I 안전 보고서 생략, 메타, 구글도 비슷한 추세

[애플경제 김예지 기자] 지브리풍 이미지 생성으로 인기를 끌었던 멀티모달 AI 모델 ‘GPT-4o’의 열풍에 이어, 오픈AI가 지난 14일(현지시간) 새로운 인공지능 모델 GPT-4.1을 공개했다. 최근 '바비 챌린지'까지 이어진 트렌드 속에서 GPT-4.1 역시 기술적 성능뿐 아니라 출시 방식까지 주목받고 있다. 하지만 이번 공개는 기대와 달리 AI 안전성 측면에서 더 많은 질문을 남겼다. GPT-4.1은 기존 모델처럼 시스템 카드(안전 보고서)를 함께 공개하지 않았고, 검증 절차 역시 비공개로 이뤄졌기 때문이다.

이는 오픈AI가 내세운 내부 안전 기준인 ‘준비 프레임워크(Preparedness Framework)’조차 실효성 없이 작동했다는 비판으로 이어지고 있다. 글로벌 기업들이 AGI(범용 인공지능)를 향해 속도를 높이는 가운데, AI 안전성은 점점 후순위로 밀려나고 있다. GPT-4.1은 이러한 흐름을 단적으로 보여주는 사례로 평가된다.

내부 기준은 존재하지만, 실행은 불투명하다

오픈AI는 2023년 말, 자사 인공지능 모델의 위험 수준을 평가하기 위한 새로운 기준을 도입했다. 이른바 ‘준비 프레임워크(Preparedness Framework)’다. 이 기준은 AI 모델을 ‘고성능(high capability)’ 또는 ‘치명적(critical capability)’ 단계로 구분해, 각각에 맞는 검증과 보호 조치를 적용하겠다는 내용을 담고 있다. 이 프레임워크는 AI가 인류에 미칠 수 있는 잠재적 위험을 사전에 차단하고, 기술을 보다 책임 있게 운영하겠다는 취지에서 만들어졌다.

하지만 이번 GPT-4.1 공개 과정을 보면, 이 프레임워크가 실제로 얼마나 작동하고 있는지는 의문이다. 오픈AI는 GPT-4.1에 대해 “프론티어 모델이 아니기 때문에 별도 시스템 카드를 제공하지 않는다”고 밝혔다. 여기서 말하는 시스템 카드는 모델의 위험성, 오용 가능성, 테스트 결과 등을 담은 일종의 안전 보고서다. GPT-4와 같은 주요 모델은 이전까지 시스템 카드가 반드시 함께 공개됐지만, GPT-4.1에서는 이 절차가 생략됐다.

문제는 프론티어 모델의 기준 자체가 모호하다는 데 있다. 어떤 수준의 성능이 ‘고위험’에 해당하는지, 어떤 조건에서 시스템 카드 공개가 생략 가능한지에 대한 구체적인 설명은 없다. 결국 오픈AI가 자의적으로 기준을 해석하고, 내부 판단에 따라 시스템 카드를 생략했다는 비판이 제기될 수밖에 없다.

오픈AI가 X(구 트위터)에 준비 프레임워크 업데이트 소식을 알렸다.(사진:X(구 트위터))

인간 대신 기계가 평가…자동화된 테스트의 한계

GPT-4.1의 개발 과정에서 드러난 또 하나의 변화는 안전성 평가 방식이다. 기존에는 사람이 직접 AI 모델을 테스트하며, 편향이나 조작 가능성, 악용 소지 등을 검증하는 ‘레드팀’ 방식이 중심이었다. 다양한 분야의 전문가들이 실제 사용자처럼 모델을 조작하거나 유도 질문을 던지며, 예상치 못한 위험을 찾아내는 것이 핵심이었다.

하지만 오픈AI는 GPT-4.1 개발 당시, 레드팀 평가보다는 자동화된 평가 시스템에 의존했다고 밝혔다. 회사 측은 “더 빠른 출시 주기를 맞추기 위해 자동화된 평가 도구를 도입하고 있다”고 설명했지만, 전문가들은 이에 대해 우려의 시선을 보낸다.

자동화된 평가 시스템은 일정한 조건에서 반복 테스트를 진행하는 데는 강점을 갖지만, 인간의 창의적인 사고나 복잡한 윤리적 판단을 완전히 대체하긴 어렵다. 특히 대규모 언어모델처럼 다양한 문맥에서 자유롭게 사고하고 말하는 AI의 경우, 예상치 못한 방식으로 정보를 생성하거나 조작할 가능성이 높다. 이러한 위험 요소는 정량적 도구만으로는 포착하기 힘들다.

실제로 테크크런치, 파이낸셜 타임스 등 외신 보도에 따르면, GPT-4.1은 출시 직전에 단기간의 평가만 거쳤으며, 그나마도 최종 모델이 아닌 이전 버전을 기준으로 테스트가 이뤄졌다는 정황이 있다. 이처럼 검증 절차가 축소되고 간소화된 상황에서, AI 모델이 실제로 얼마나 안전한지를 신뢰하기는 어렵다.

상단영역

본문영역