(기획(2-②))생성AI가 ‘공공의 적’ 돌변?…‘보안 기술도 발전’

AI 해킹 대비, 다양한 보안 대책, AI앱 보안 프레임워크 등 LLM보안, 생성AI보안, 데이터보안, AI API, AI 코드 보안 주요 빅테크들도 나름의 보안과 윤리준칙, 독창적 기술 개발

2025-09-18     이윤순 기자
(사진=언스플레시)

[애플경제 이윤순 기자] 생성AI 해킹에 대응하기 위해선 공급업체와 소비자 모두의 노력이 필요하다. 개발자나 제공업체는 개발 단계에서부터 학습 데이터와 모델의 보안을 강화해야 한다. 이에 사용자는 악의적인 데이터 입력을 삼가고, AI 애플리케이션 사용 과정에서 늘 보안 관리에 철저를 기해야 한다. AI 애플리케이션 전반에 보안 프레임워크가 적용되어야 한다.

국내외에 걸쳐 이같은 보안 프레임워크가 많이 개발, 적용되고 있다. 그 중에서도 최근 국내 보안업계와 전문가들이 흔히 예시로 드는 것은 글로벌 보안업체인 팔로엘토네트워크의 보안 프레임워크다.

특히 “이를 위해선 인프라와 데이터, 모델, 그리고 윤리 중심으로 AI 프롬프트 보안을 구현해야 한다”는 전문가들의 주문이다. 국내 유력 보안업체 이글루코퍼레이션의 김미희 팀장은 자체 연구 보고서에서 “사용자의 입력부터 출력까지의 안전 확보가 필요하다”면서 “특히, 데이터 보안을 위해선 물리적 보안을 포함한 하드웨어 보안이나, 입출력 데이터 필터링, 훈련 데이터의 정체, 암호화, 접근제어, 데이터 무결성 검사가 필수적”이라고 했다.

팔로앨토의 보안 대책 ‘눈길’

실제로 팔로앨토의 방법론을 보면, 우선 ▲LLM 보안을 위해 인프라 보안과 데이터 보안에 주력한다. 그 중 인프라 보안 측면에선 차별이나 유해성, 편향을 배제하기 위한 물리적 보안, 하드웨어 보안, 침입탐지, 호스팅 환경 보안, 암호화, 접근통제 강화 등이 필요하다.

데이터 보안을 위해선 데이터 유출이나, 데이터 포이즈닝, 데이터 프라이버시에 대응하기 위한 입출력 데이터 필터링이 필요하다. 또 훈련 데이터를 정제하고, 암호화나 접근제어, 데이터 무결성을 확보해야 한다.

또 모델 보안을 위해 허위 정보 생성이나, 환각, 서비스 거부, 변조 등을 방지해야 한다. 이를 위해 RAG(증강검색)을 통한 환각 현상을 줄일 필요가 있다. 또한 출력 검증, 모델 얼라인먼트, 모델 보상 등으로 모델을 강화해야 한다. 입력이나 무결성을 검증하는 것도 중요하다.

이 밖에도 윤리적으로 고려할 사항도 있다. 각종 모델 윤리 원칙과 가이드라인을 통해 가드레인이 필요하다. 또한 편향과 오작동의 투명성을 확보할 필요가 있다.

팔로앨토 방법론에선 또 ▲‘인공지능 프롬프트 보안’이 중시된다. 이는 입력 단계의 유효성 검사, 모델 내부의 적대적 훈련, 샌드박싱, 아키텍처 등 시스템 환경 점검, 사용자에 대한 교육이나 모니터링 등이 필수적이다. 이를 다시 요약하면, 입력 유효성 검사와 전처리, 사용자 교육과 훈련, 지속적인 패치와 업그레이드, 실행 격리와 샌드박싱, 아키텍처 보호와 에어 갭, 적대적 훈련과 증강, 접근 제어와 요청 속도 제한, 다양성, 중복성, 분할, 이상 징후 탐지, 출력 모니터링과 경고 등이다.

▲‘생성AI 데이터 보안’도 중시된다. 우선 ‘프런트엔드’, 즉 인증과 접근 제어, 데이터 유효성 검사, 응답 정제 등이 필요하다. ‘백엔드’의 경우 암호화 제어, 시크릿 관리, 보안 API, 로깅 및 모니터링이 필요하다. 또 ‘LLM 프레임워크’ 측면에선 모델에 대한 적대적 공격 방어에 대응하고, 모델의 훈련 데이터 보안을 지키며, 데이터 유출과 콘텐츠를 제어할 수도 있도록 한다. 이 밖에도 제3자 구성요소나 LLM 라이브러리 유효성 검사가 필수다. 또한 데이터 프라이버시와 보호도 중요하다. 에이전트에 대한 평판과 무결성 검사, 권한 확인도 필수다.

이와 함께 비즈니스 연속성이나, 모니터링 및 사고 대응, 패치 관리, 사고 대응 등 인프라스트럭처도 중요하다.

▲AI API 보안도 중요하다. 인증이나 인가, 즉 API 키, ‘OAuth 2.0’, JWT 등을 통한 최소 권한 원칙을 적용한다. 입력 유효성 검사, 통신 암호화, 로깅 및 모니터링도 중요하다.

▲AI 코드 보안도 필수다. 코드에 대한 정적, 동적 분석을 해야 한다. 즉, SAST, DAST를 통해 모델 코드나 학습 스크립트, 추론 코드 등의 잠재적 보안 취약점을 점검해야 한다. 또한 종속성 관리나, 안전한 모델 저장소 관리, 악성 모델 감염 방지, 모델 훈련 환경 격리도 중요하다.

(사진=언스플레시)

앤스로픽, 네이버, MS, 구글 등 보안대책

한편 이를 기반으로 한 글로벌 AI기업들 나름의 보안대책도 눈길을 끈다. ‘클로드’AI 등을 출시한 앤스로픽은 AI 모델 안전성과 윤리 준수 강화를 위해 이른바 ‘헌법적 AI’(Constitutional AI)를 제시, 관심을 끌었다. 고차원의 검증을 위해 거창하게 ‘헌법’이라는 개념까지 원용, “유해하거나 차별적인 결과는 피하고 불법적이고 비윤리적 활동을 제한한다”는 원리다.

또 딥마인의 원칙이나 주요 플랫폼의 이용약관 등을 토대로 하기도 한다. 이를 통해 AI의 가치 편향을 최소화하고, 포괄성 강화를 위해 AI를 훈련한다. 특히 “국가와 지역 등의 제도적 법적 한계를 포괄할 수 있는 AI 기준에 주력한다”는 설명이다.

마이크로소프트는 ‘다층 보안체계’를 위한 모델 얼라인먼트와 프롬프트 필터링, 시스템 메시지 제어, 콘텐츠 필터링, 남용 탐지 시스템을 구축하고 있다. 특히 미국표준연구소의 ‘AI리스크관리 프레임워크’(RMF)에 부합된 AI 원칙을 통해 ‘Purview’를 구현하고 있다. 즉 프롬프트 쉴즈, 남용 모니터링, 콘텐츠 필터링 등이다. 이를 통해 신뢰할 수 있는 AI를 조성한다는 목표다.

구글은 이른바 ‘Secure AI Framework(AI안전프레임워크)’를 통해 AI 보안 위협을 유발할 수 있는 가드레일을 우회하고, 유해 콘텐츠 생성 행위에 대한 기술적, 정책적, 윤리적 대응을 하고 있다. 이는 보안 제어 일관성 유지, 위협 자동 탐지, 신속한 피드백 등 6가지 핵심 구성요소로 되어있다. 이런 노력은 “구글의 AI 생태계 안전성과 투명성을 강화하기 위한 것”이란 설명이다.

팔로앨토네트워크의 보안대책도 눈에 띈다. 이 회사는 고위험 행위에 대한 HITL(Human-in-the-Loop), 즉 사용자의 개입을 통해 시스템 설정이나 외부 명령어 실행과 같은 기능을 모니터링하도록 한다.

그 과정에서 포괄적인 콘텐츠 필터링이나, 오픈AI 모더레이션, ‘애저’ AI 서비스 콘텐츠 필터링 등을 시행한다. 특히 기업별 대응 체계를 위해 맞춤화된 필터링 매커니즘을 제공하기도 한다.

이 회사는 또 ‘싱글턴’과 ‘멀티턴’ 기반의 LLM 서비스 환경에서 발생할 수 있는 AI 스프롤, 쉐도우 AI 모델을 관리, 연구하고 있다. 이를 통해 “AI 애플리케이션 환경의 공격벡터를 최소화하고, 입력 프롬프트 필터링을 강화한다”는 설명이다.

국내에서도 유사한 노력이 이어지고 있다. 네이버가 대표적이다. 지난 2022년부터 ‘네이버 AI 윤리 자문 프로세스’인 ‘CHEC(Consultation on Human-centered AI’s Ethical Considerations)를 통해 ‘네이버 AI 윤리 준칙’을 출시 제품에 적용하고 있다. 이 회사는 또 ASF(AI Safety Framework) 구축이나 개방형 컨소시엄 ‘MLCommons’을 선보이고 있다. 툭히 AI 안전 벤치마크를 구축하기 위한 ‘C2PA’(Coalition for Content Provenance and Authenticity)를 국내 최초로 도입하기도 했다. 이를 통해 AI 워터마크 기술 표준을 구축하고, AI시스템 위험 관리체계를 수립한다는 목표다.