(2-2)AI안전과 투명성 보장 ‘AI BOM’
구글 모델카드, ‘AI BOM’의 보완재로 눈길 AI-BOM 정보, MLOps의 단계별 생성․업데이트
[애플경제 전윤미 기자] 매일 수많은 오픈 소스 AI와 데이터셋이 쏟아져 나오고 있다. 체계화된 AI 공급망 관리도 그 만큼 시급한 상황이며, 앞으로 AI-BOM의 구체화도 더욱 빨라질 것이란 기대다. 특히 윤대균 아주대 교수는 이를 위한 데이터셋 제공 방안과 함께, 구글이 제시한 모델 카드에 주목하고 있다.
모델 카드, 구체적 가이드라인과 템플릿 제공
구글이 처음 제안한 모델 카드는 머신러닝 모델의 주요 특성, 성능, 한계, 윤리적 고려 사항을 간결하고 표준화된 형식으로 문서화한 것이다. 이는 AI 설계자, 기업 리더, ML 최종 사용자 등이 특정 ML 모델의 의도된 사용 사례, 특성, 행동, 윤리적 고려 사항, 그리고 편향성과 한계를 쉽게 이해할 수 있도록 하는 것이 목적이다.
모델 카드에는 SBOM에 이어, AI-BOM에서 추가되어야 할 항목들을 포함하고 있다.
구체적으로 보면 이름, 버전, 개발자 등 ‘모델 개요’, 그리고 용도, 사용 사례 등이다. 또 알고리즘이나 모델 크기, 필요한 리소스 등 ‘모델 아키텍처’도 중요하다. 학습 데이터 개요, 통계적 분포/대표성, 전처리 과정 등 ‘데이터’와, 성능 메트릭, 벤치마크 결과 등 ‘성능평가’도 필수적이다.
더욱이 기술적 한계, 편향, 부적절한 사용 사례 등 ‘한계와 편향성’도 추가되고, 프라이버시, 사회적 영향, 환경 영향 등 ‘윤리적 고려 사항’도 포함된다. 그 밖에도 각종 관련 자료와 업데이트 이력 등 추가적인 정보가 들어갈 수 있다.
구글의 모델카드는 ‘시스템 카드’라고도 불린다. 수 십 만개의 오픈 소스 AI모델이 저장된 허깅페이스처럼 그 하나하나에 대해 모델 카드의 일관성을 위해 구체적인 가이드라인과 템플릿을 제공하기도 한다.
그러면 모델 카드가 AI-BOM의 대체재로 활용될 수 있을까. 대부분 전문가들은 대체재라기보단, 보완재의 성격이 되어야 한다는 시각이다. 모델 카드는 AI 모델 ‘설명서’, 즉 자재설명서 내지 ‘자재 장부’에 가깝지만, AI-BOM은 사이버 보안까지 염두에 둔 ‘공급망 관리’ 차원에서 필요한 도구다. 만약 표준화 과정에서 모델 카드도 자동화된 도구 적용이 가능한 수준으로 규격화될 수 있다면, 이는 AI-BOM안에 포함되는 것이 가장 이상적인 형태라는게 지배적인 의견이다.
그러나 모델 카드의 규격화가 어려울 경우, AI-BOM의 보완 문서로 중요한 역할을 할 수 있을 것이란 관측이다. 그래서 “AI-BOM 표준화가 추진되는 과정에서 모델 카드도 반드시 함께 고려하여 어떤 형태로든 반영되어야 한다.”는 주장이다.
MLOps 주요 단계별, AI BOM 정보 생성․업데이트
MLOps는 머신러닝의 특수성을 고려, DevOps 원칙을 이에 맞게 확장한 것이다. 즉, 머신러닝모델의 개발부터 배포, 운영, 모니터링, 그리고 지속적인 개선까지의 전체 라이프사이클을 체계적으로 관리하는 것이다. 이를 통해 데이터 과학자, 개발자, 운영팀 간의 협업을 원활하게 하고, 모델의 품질과 비즈니스 가치를 지속해서 향상할 수 있다.
MLOps에게 AI-BOM은 AI 시스템의 전체 라이프사이클에 걸쳐 중요한 역할을 한다. 개발 초기 단계부터 배포, 운영, 유지보수에 이르기까지 AI-BOM은 지속해서 생성, 업데이트가 반복되면서 AI 모델이나 이를 기반으로 한 애플리케이션의 투명성과 신뢰성 분석에 활용될 수 있다.
AI-BOM의 생성은 프로젝트 시작 시점부터 이루어진다. 각 단계마다 관련 정보가 추가되고 갱신된다. 예를 들어, 데이터 수집 단계에서는 데이터 소스와 전처리 방법이 기록되고, 모델 개발 단계에서는 모델 아키텍처와 하이퍼 파라미터 정보가 추가될 수 있다.
MLOps의 주요 단계별로 생성 또는 업데이트될 수 있는 AI-BOM 정보는 크게 기획단계, 데이터 수집과 전처리, 모델 개발, 학습 및 검증, 배포, 모니터링 및 유지․보수 등이 있다.
기획 단계에선 프로젝트 명세, 목표 성능 지표, 신뢰성 및 투명성, 윤리적 고려사항 등이 수집된다. 데이터 수집 및 전처리 단계에선 데이터 소스, 전처리 방법, 데이터 버전, 품질 메트릭, 그리고 모델 개발 단계에선 모델 아키텍처, 하이퍼 파라미터, 사용된 라이브러리 및 버전 등이 수집된다.
또한 학습 및 검증 단계에선 학습 환경 정보, 평가 메트릭, 검증 데이터셋 정보, 배포 단계에선 배포 환경 사양, 컨테이너 정보, API 명세, 다운스트림 애플리케이션을 위한 상위 정보 등이 포함된다. 그리고 모니터링 및 유지보수 단계에선 모니터링 지표, 주요 성능 임곗값, 업데이트 이력 등이 수집된다.ㅏ
앞으로 AI-BOM의 관리는 날로 자동화되고 정교해질 것이란 전망이다. 머신러닝 파이프라인과 통합된 자동 AI-BOM 생성 도구, 실시간 업데이트 기능, 고급 분석 도구, 시각화 도구 등이 개발되면 전체 파이프라인이 자동화된다. 그렇게 되면 AI 시스템의 투명성, 신뢰성, 관리 효율성이 크게 향상될 것으로 보인다.