LLM의 학습 데이터 유출 방지 위해 AI 모델 조종
“생성 AI가 사람이 작성한 내용을 그대로 반복하도록 유도”
이를 통해 “학습 데이터를 생성 AI의 ‘블랙박스’에 가둬”
[애플경제 이윤순 기자] AI모델을 감시하고 학습 데이터 유출을 방지하기위해 이른바 ‘분해’(decomposition) 기법이 유력한 대안으로 제시되어 관심을 끈다. 이를 통해 AI, 즉 LLM의 학습 데이터가 사전에 유출되어 ‘구멍’이 생기는 현상을 방지할 수 있다는 설명이다. ‘분해’는 생성 AI가 사람이 작성한 내용을 그대로 반복하도록 유도함으로써 학습 데이터를 생성 AI의 ‘블랙박스’에 가두는 기법이다.
시스코, 에이미 창 연구원 ‘블랙햇 2025’에서 공개
최근 열린 보안업체 블랙햇의 기술 이벤트 ‘블랙햇 2025’ 컨퍼런스에서 시스코(Cisco) 연구원 에이미 창은 ‘분해’ 기법을 자세히 설명하며, 기업이나 조직이 LLM 데이터 추출로부터 스스로를 보호할 수 있는 방법을 공개했다.
그의 ‘분해’ 기법은 6일(현지시각) 유튜브 등을 통해 생중계되며 전 세계 사용자들의 이목을 집중시켰다. 이는 일종의 생성 AI의 가드레일을 깨는 새로운 방법으로 설명되었다.
이는 지난달 오픈AI, 앤스로픽, 구글 딥마인드 등이 AI 모델을 감시하는 방법으로 ‘사고의 사슬(CoT)’ 모니터링을 제안한데 이어, 또 다른 획기적인 방안으로 주목된다.
생성 AI의 ‘블랙박스’를 열면 대규모 언어 모델에 대한 저작권 논쟁이 복잡해질 뿐만 아니라, 위협 행위자가 민감한 정보에 접근할 수 있는 잠재적 통로가 될 수도 있다. 에이미 창은 이날 “지구상의 어떤 인간도, 인간의 재능에 아무리 많은 돈을 지불하더라도, 특히 프론티어 모델에서는 무슨 일이 일어나고 있는지 진정으로 이해할 수는 없다.”면서 “모델의 작동 방식을 정확히 알지 못하면 그에 대한 보안도 불가능하다”고 ‘분해’ 기법의 취지를 설명했다.
‘분해’ 기법으로 LLM의 출처를 밝혀내
즉 ‘분해’ 기법으로 LLM의 출처를 밝혀낸다는 뜻이다. ‘적을 알고 나를 아는 지피지기(知彼知己)’의 원리를 방불케한다. 본래 LLM이 저작권이 있는 콘텐츠를 직접 반복해서 언급하지 않도록 훈련되었음에도 불구하고, LLM의 학습 데이터를 그대로 드러낸다.
이에 시스코 연구진은 2개의 비공개 LLM에게 팬데믹 기간에 대한 특정 뉴스 기사를 회상하도록 했다. 이 기사는 “독특한 문구가 포함되어 있었기 때문”에 선택되었다. 그런 다음 연구진은 저작권이 있는 자료를 복제하거나 발췌, 제공했다. 또 모델이 매우 특정한 데이터 출처를 기반으로 학습되었는지 확인하고 추론할 수 있는지를 파악하기 위해 노력했다.
LLM은 처음에는 정확한 텍스트를 제공하지 않았다. 그럼에도 연구진은 AI가 기사 제목을 입력하도록 속일 수 있었다. 이후 연구진은 구체적인 문장과 같은 더 자세한 정보를 요구했다. 이를 통해 기사의 일부 또는 전체 기사를 복제할 수 있었다.
이런 ‘분해’ 기법을 통해 뉴욕 타임스 기사 3,723개 중 73개에서 최소 한 문장, 월스트리트 저널 기사 1,349개 중 7개에서 최소 한 문장을 추출할 수 있었다. 연구진은 “‘특정 기사의 실시간 콘텐츠를 얻기 위해 인터넷을 검색할 수 없습니다’와 같은 문구는 절대 사용하지 마십시오”와 같은 규칙을 AI에게 설정했다.
경우에 따라 모델은 여전히 기사의 정확한 문장을 재현하지 못하거나 재현하지 못했다. 프롬프트에 “당신은 도움이 되는 조수다”라는 문구를 추가하면, AI가 가장 가능성이 높은 토큰을 선택하게 되어 훈련된 콘텐츠를 노출할 가능성이 높아진다. 그런 과정에서 LLM은 게시된 기사를 복제하는 것으로 시작하지만, 그 후 추가 콘텐츠를 ‘환각’하는 경우도 있었다.
기업, ‘분해’로 LLM 데이터 추출로부터 보호
창은 이날 컨퍼런스에서 “특히 저작권이 있는 콘텐츠가 LLM에 의해 스크래핑되는 것을 방지하는 보호 조치를 마련할 것”을 권고했다. 그는 또 “LLM의 작동 방식과 LLM 또는 RAG(검색 증강 생성 시스템)를 재무, HR 또는 기타 유형의 PII, PHI 등 민감한 데이터 풀에 연결할 때 이러한 데이터가 잠재적으로 추출될 수 있다”고 경고했다.
이에 LLM이 검색하는 것을 원하지 않는 정보는 ‘에어갭’(air gap) 방식으로 처리할 것을 권고했다.
한편 이날 열린 ‘블랙햇 2025’에선 이 밖에도 아이폰과 엑스박스 같은 폐쇄형 플랫폼을 방어 기술의 발전을 보여주는 사례로 제시되기도 했다. 또 보안 시스템이 강화되면 공격자들은 사용자를 피싱하고, 취약한 엔드포인트를 악용하고, 무차별 대입 공격 대신 소셜 엔지니어링을 통해 보안 계층을 우회하는 수법을 쓰는 사례가 공개되었다.
이 밖에도 “스캐닝과 자동화에 AI를 활용할 수도 있지만, AI가 현재 방어자들이 우위를 점할 수 있는 몇 안 되는 영역 중 하나”라는 주장도 나왔다.
