생성AI 모델의 판단과 추론 이유…‘환각, 오류, 편견․편향’ 원인 규명
‘미궁’의 오랜 숙제, 앤트로픽과 오픈AI가 최근 파헤치는데 성공
앤트로픽 ‘클로드3’, 오픈AI ‘GPT-4’로 실험 “출력 조종 원인”
LLM의 출력과 판단을 제어․조정, ‘거짓과 오류, 위험한 출력 방지’

사진은 'AI엑스포 2024'에 출품한 업체로서 본문과 직접 관련은 없음.
사진은 'AI엑스포 2024'에 출품한 업체로서 본문과 직접 관련은 없음.

[애플경제 전윤미 기자] 생성AI와 LLM이 사이버 보안에 취약하거나, 편견, 오류 등을 유발하기도 해서 늘 문제가 되고 있다. 그러나 왜 LLM 또는 생성AI모델이 그런 잘못된 결과를 초래하는지를 정확히 밝혀낼 수 없는게 현실이다. 즉, AI ‘블랙박스’의 원인 규명을 제대로 못하고 있는게 현실이다. 그런 가운데 최근 오픈AI와 앤트로픽의 전문가들이 그 동안 AI개발업계의 오랜 숙제였던 AI ‘블랙박스’의 실체를 마침내 상당 부분 파헤치는데 성공한 것으로 전해졌다.

앤트로픽이 먼저 자사 블로그를 통해 “‘클로드 AI’ 모델의 ‘기능’이 어떻게 대규모 언어 모델의 출력을 조종하는지 그 원인을 담은 ‘블랙 박스’의 베일을 벗겨내는데 성공했다”고 밝혀 놀라움을 안겼다. 그로부터 2주가 지난 9일 오픈AI는 앤트로픽과는 달리 ‘희소 자동 인코더’(sparse autoencoders)에 대한 심층 분석을 통해 역시 ‘AI 블랙박스’를 파헤칠 수 있었다“고 밝혔다.

앤트로픽 '클로드3' 화면.
앤트로픽 '클로드3' 화면.

앤트로픽, ‘특징=뉴런’의 출력 원리 해부

본래 대규모 언어 모델은 다양한 개념과 양식을 함께 연결할 수 있는 ‘뉴런’과 같은 구조로 작동하기 때문에 실상 AI 개발자가 모델의 동작을 변경하기 위해 모델을 조정하는 것이 어려울 수 밖에 없다. 그래서 어떤 뉴런이 어떤 개념을 연결하는지 모르기 때문에 과연 어떤 뉴런을 바꿔야 할지 알 수 없다. 즉 ‘AI 블랙박스’의 원리를 파악할 수 없는 것이다.

그러나 지난달 앤트로픽은 자사의 ‘클로드 AI’의 미세 조정 버전, 특히 ‘클로드 3 소네트 3.0’ 모델의 내부 작동에 대한 매우 상세한 ‘지도’를 발표했다. 그 후 얼마 안가 오픈AI도 자사의 GPT-4 패턴을 앞서 말한 ‘희소 자동 인코더’ 분석을 통해 파악해낼 수 있었다.

앤트로픽은 우선 ‘지도’를 통해 연구원들이 ‘특징’(feature)이라고 부른 ‘뉴런’과 유사한 데이터 포인트가 생성 AI의 출력에 어떤 영향을 미치는지 탐색했다. 그저 모델의 출력 자체만 볼 수 있었던 지금까지의 AI연구의 획을 긋는 시도다.

이러한 ‘AI 블랙박스’ 해부 작업의 목표 중엔 ‘안전’문제도 있다. 즉, 개발자 혹은 사용자들이 (AI 블랙박스에 감춰진) 해당 기능을 안정적으로 식별해낼 수 있으면, 생성 AI를 조정해 AI에 의해 잠재적으로 위험할 수 있는 주제나 행동을 피할 수 있는 셈이다. 또 이는 AI의 편향된 판단을 유발하는 ‘분류작업’을 조정할 수도 있어, 편향이나 편견 등을 방지할 수도 있다.

해석 가능한 기능 조사, LLM 추론 ‘관련 주제’ 규명

앤트로픽은 우선 ‘AI블랙박스’를 파헤치기 위해 대규모 언어 모델인 ‘클로드3’에서 해석 가능한 ‘특징’을 추출했다. 해석 가능한 ‘특징’은 ‘모델이 읽을 수 있는 숫자’에서 ‘사람이 이해할 수 있는 개념’으로 변환될 수 있다. 이때 ‘해석 가능한 기능’은 다른 언어의 동일한 개념과 이미지와 텍스트 모두에 적용될 수 있다. 앤트로픽은 “예를 들어 (美 샌프란시스코의) ‘금문교’와 연결된 단어와 이미지에서 특정 기능이 활성화되는 것을 보여주며, 다양한 활성화 강도를 나타냈다”고 실험 과정을 설명했다. 즉 이를 통해 ‘기능’을 조사하면 LLM이 서로 관련이 있다고 간주하는 ‘주제’가 무엇인지 알 수 있다는 이치다.

엔트로픽은 블로그에서 “연구가 지향하는 궁극적 목표는 모델(클로드 3 소네트)의 활성화를 더 해석 가능한 조각으로 분해하는 것”이라고 했다.

즉, “해석 가능성에 대한 한 가지 희망은 이것이 일종의 ‘안전을 위한 테스트 세트’가 될 수 있다는 점”이라며 “이를 통해 훈련 중에 ‘안전해 보이는 모델’이 실제로 배포 시 안전한지 여부를 알 수 있다.”고 조각 ‘분해’를 통한 탐색이 일종의 모델의 ‘안전판’ 역할을 하는 것임을 강조했다.

이때 해당 ‘기능’은 신경망 아키텍처의 일종인 ‘희소 자동 인코더’에 의해 생성된다. AI 훈련 과정에서 ‘희소 자동 인코더’는 무엇보다도 ‘확장 법칙’을 따른다. 따라서 ‘특징’을 식별하면 AI가 연관시키는 주제를 관리하는 규칙을 살펴볼 수 있다. 다시 말해 “희소 자동 인코더를 사용해 기능을 공개하고 분석했다”는 것이다.

특히 앤트로픽은 “그 과정에서 매우 추상적인 다양한 특징을 발견했다.”면서 “그들(기능)은 추상적인 행동에 반응하고, 이를 행동으로 도출한다”고 적었다.

기능 활성화 값 조정으로 ‘특징’과 출력 제어 가능

특히 앤트로픽은 연구를 통해 ‘안전하지 않은 코드’, ‘코드 오류’, ‘백도어’ 등 사이버 보안과 관련될 수 있는 세 가지 특징을 발견했다. 예를 들어, 백도어 기능은 ‘숨겨진 카메라’와 ‘숨겨진 USB 드라이브가 있는 보석’에 대한 대화나 이미지에 대해 활성화된다. 특히 민감한 보안 주제를 피하거나, 재치 있게 처리하도록 모델을 조정하기 위한 특정 기능의 ‘클램핑’을 실험한 것으로 전해졌다. ‘클램핑’은 특정 기능의 강도를 높이거나 낮추는 실험이다. “이를 통해 ‘클로드’의 편견이나, 증오심 표현 등을 제어․조정할 수 있었다”는 것이다.

특히 앤트로픽은 “‘클로드’가 ‘증오’를 표현했을 때 모델을 의인화하며 ‘그런 자체 반응에 불안해한다’는 점을 발견했다”고 밝혔다. 예를 들어, 연구자가 증오나 비방과 관련된 기능을 최대 활성화 값의 20배 수준에 그치도록 고정했을 때, 클로드는 “그건 개탄스러운 봇의 인종차별적 증오심 표현일 뿐입니다”라고 출력하는 것을 발견했다.

연구자들이 조사한 또 다른 특징은 ‘아첨’이나 ‘칭찬’이다. 연구자들은 앞서와 같은 최대 활성화값을 조정함으로써 대화 상대방에 대해 최고의 ‘칭찬’을 선사하도록 모델을 조정할 수도 있었다. 또 LLM에서 사용하는 일부 기능을 식별, AI를 조정함으로서 편향된 연설을 방지하거나, AI가 사용자에게 거짓말을 못하도록 하고, 문제를 해결하는 데 도움이 될 수 있음도 알아냈다.

오픈AI GPT-4. (출처=오픈AI)
오픈AI GPT-4. (출처=오픈AI)

오픈AI, ‘기능 자동 인코더’ 훈련 방식으로 규명

그 후 발표된 오픈AI의 연구는 ‘희소 자동 인코더’에 중점을 두고 있다. 이 회사 연구원들은 희소 자동 인코더의 크기를 조정하고, 평가하는 방식을 별도 논문을 통해 자세히 설명했다. 이를 요약한 ‘테크리퍼블릭’ 등 기술매체들에 의하면 이는 간단히 말해서, “인간이 기능을 더 이해하기 쉽게 만들어서 조종하기 쉽게 만드는 것”이다. 즉 그 동안 ‘AI 블랙박스’에 감춰졌던 AI의 오류나 편견, 부작용 등의 오작동 원리를 규명, 제어․수정할 수 있게 된 것이다.

OpenAI는 그 과정에서 GPT-4의 1,600만개에 달하는 ‘기능 자동 인코더’를 포함해, GPT-2 소형모델과 GPT-4 활성화에 대한 다양한 자동 인코더를 훈련하는 방식을 구사했다. 지금까지는 GPT-4의 모든 동작을 해석할 수 없었다. 그러나 “이번 연구는 생성 AI의 '블랙박스'를 이해하고 잠재적으로 보안을 개선하기 위한 큰 진척”이라고 했다. 그야말로 ‘AI 블랙박스’의 비밀을 마침내 파헤치는데 성공한 것이다.

저작권자 © 애플경제 무단전재 및 재배포 금지