알 수 없는 AI의 ‘속내’, ‘AI블랙박스’ 작동원리 규명 기술 주목
오류․환각 등 방지 가능, “‘AI안전성’ 위해서도 매우 중요”
앤트로픽 ‘딕셔너리 러닝’, 구글 ‘모델 익스플로러’ 등 개발
[애플경제 이윤순 기자] AI가 과연 어떤 근거와 판단으로 답변을 내놓을까. 정작 고도의 역량을 갖춘 개발자들도 그것까진 아직 파악하지 못하고 있어 문제다. 이에 국내외 AI개발업계에선 그런 AI툴을 두고 ‘AI블랙박스’로 부르며 난감해하고 있다. 환각이나 오류의 원인을 찾아내는데도 어려움을 겪을 수 밖에 없다.
이에 최근엔 AI 작동 모델이 어떻게 엮이는지를 살펴보고 어떤 방식으로 작동하는지 연구한 성과가 공개되기도 해 관심을 끈다. 앤트로픽은 최근 사람이 기분 변화에 따라, 또는 특정한 단어를 말할 때 뇌 속의 특정 부분들이 반응하며 활성화된다는 데서 착안, AI의 판단 근거를 밝혀내는데 성공했다.
앤트로픽, ‘LLM의 마인드 매핑’ 논문 발표
앤트로픽은 ‘LLM의 마인드 매핑’이라는 연구논문을 공개하며, LLM이 실제로 어떻게 동작하는지 알아내는 내용을 공개했다. 이에 따르면 AI LLM 모델에서도 어떤 특정 단어나 텍스트가 주어지면 특정 부문들이 반응하고 이것들을 뽑아내서 단어들을 매핑해 보면서 실제로 LLM이 어떻게 동작하는지 논리적으로 설명할 수 있다.
이를 위해 앤트로픽은 자체 대규모언어모델(LLM)인 ‘클로드 소네트(Claude 3 Sonnet)’에서 AI가 어떻게 사고하는지를 시각화한 후 도출했다. 그 과정에서 ‘딕셔너리 러닝’(dictionary learning) 기법을 통해 ‘클로드 소네트’ 내부에서 수백만 개의 ‘특징(feature)’을 추출해 개념화한 지도를 생성했다. 그 중에 특정 용어가 있으면 이를 추출, AI모델이 어떻게 동작하는지를 좀 더 이해할 수 있다는데 착안한 것이다.
그 결과 “AI가 동작하는 방식을 이해함으로써 AI 오남용이나, 잘못된 사용 등 AI가 저지를 수 있는 안전성 관련 문제들을 해결할 가능성을 보여준 셈”이라고 했다.
앤트로픽은 안전성 강화를 통해 장기적으로 AI 컨트롤 능력 향상에 중점을 두고 있는 회사다. 오픈AI 출신 연구원들이 모여 세운 이 회사는 오픈AI가 안전성보다 개발에 집중하는 것과는 달리, 이번에 발표한 논문처럼 AI의 판단 근거와 작동방식을 규명하는 등 안전성에 대한 답을 찾아가는 과정을 보여주었다는 점에서 주목된다.
만약 지금처럼 인간이 자의적으로 AI를 학습시켜 그 결과값을 조절하는 것이 아니라, 애초결과값에 이르기까지의 과정을 순리대로 자연스럽게 처리하는 AI를 앤트로픽이 개발하게 되면 이는 획기적인 성과로 평가될 수 있다. 이는 AI 성능을 떠나 장기적으로 AI를 컨트롤할 수 있는 능력을 강화하며 AI 주도권을 확보할 수 있게 되는 것이다.
앤트로픽은 이른바 ‘AI블랙박스’를 규명하며, AI 모델의 내부 작동을 이해하는 데 상당히 진전을 이루었다는 점에서 새삼 주목을 끈다. 이 단계에서 더 발전하면 뇌의 동작 방식도 함께 발전할 수 있다는 기대감도 크다.
이는 곧 AI가 결과값을 위해 시도하는 추론 과정을 알 수 있는 설명 가능한 인공지능(XAI) 기술과도 맞닿는다. 이는 결국 AI 모델의 투명성, 신뢰성, 편향성, 안전성, 책임 소재, 윤리적 활용 등 다양한 측면에서 긍정적 효과를 불러올 수 있을 것이란 전망이다.
구글, 그래픽 랜더링 기반 모델 탐색기 출시
구글 역시 이같은 노력을 기울이고 있다. LLM 작동원리를 알기 위해 내부를 탐색할 수 있도록 신경망을 시각화하는 도구인 ‘모델 익스플로러(Model Explorer)’를 오픈소스로 출시했다. 해당 모델 내부에서 데이터가 이동하는 방식과 구성 요소들이 상호 작용하는 방식을 묘사하며, 모델 구축 과정에서 문제를 줄이고 아키텍처를 최적화하고 있다.
구글은 또 “블랙박스와 같은 인공지능(AI) 모델의 내부 동작을 이해하고, 디버깅하고, 최적화할 수 있다”고 블로그에서 밝혔다. 실제로 AI 모델이 규모가 커지고 복잡해짐에 따라, 모델을 이해하고 해석하는 것이 더욱 어려워지고 있다. 그러나 여러 계층과 복잡한 연결이 있는 대규모의 복잡한 모델을 이해하면 잠재적인 문제와 개선 범위를 쉽게 추적할 수 있다. 구글 역시 “이를 위해서는 정확한 그래프 시각화 도구가 필수적”이라고 밝혔다.
이에 따르면 해당 모델 탐색기는 이른바 ‘그래픽 렌더링’ 기술을 활용, LLM모델을 계층적 정보로 원활하게 시각화한다. 또 구조를 탐색하기 위한 인터페이스도 제공한다. 실제로 수많은 ‘컨벌루션 레이어’가 있는 대규모 이미지 인식 모델에 대해 정확한 시각화 도구를 사용하면, 각 레이어가 이미지로부터 단계별로 특징을 추출하는 방법을 확인할 수 있다. 그래서 “특정 레이어가 중요한 세부 정보를 흐리게 하거나 분류 오류를 범할 수 있는지 식별하는 데 도움이 된다”는 것이다. 구글의 모델 탐색기는 그런 시도를 통해 5만개의 노드와 5000개의 에지가 있는 그래프를 초당 60프레임 속도로 원활하게 렌더링했다. 또 대규모 AI 모델을 계층적 정보로 원활하게 시각화하여 보여준 것이다.
이처럼 ‘AI 블랙박스’의 내부를 규명하는 기술이 발달하면서, AI의 오류와 환각 등을 크게 줄일 수 있을 것이란 기대를 낳고 있다. 최근 이에 관한 연구자료를 공개한 정보통신기획평가원은 “즉 XAI를 통해 복잡한 딥러닝 기반의 AI 모델이 내부적으로 어떻게 작동하는지 관찰하거나 이해할 수 있게 된다”면서 “블랙박스 성격의 AI는 큰 단점 중 하나이며 만약 환각 때문에 오답이나 유해한 답변을 할 경우, 이를 방지하기 위해 교차 검증으로 해결하는 과정이 추가되어야 한다.”고 강조했다. 그런 점에서 ‘XAI’나 모델 탐색기 기술은 큰 의미가 있다는 설명이다.
