(2-1) ‘AI BOM’으로 "AI안전과 투명성 보장"
SW관리대장 SBM에 AI 학습데이터셋 등 추가, ‘공정․신뢰성’ 보장 파인튜닝 이력, 신규 데이터셋, 모델․파라미터 수정 내역 등 포함 “데이터셋에 대한 다양한 ‘설명’ 위한 ‘문서화’ 접근 방식 필요”
[애플경제 전윤미 기자] 안전, 투명하고 예측 가능한 SW관리를 위한 일종의 SW자재관리대장인 ‘SBOM’의 중요성이 강조되고 있다. 이와 비슷한 맥락에서 'AI Bill of Materials(BOM)'의 개념이 새삼 주목받고 있다. 이는 AI의 안전하고 투명한 개발과 배포 등을 위한 AI관리대장이라고 할 수 있다.
특히 대규모 언어 모델(LLM) 기반 애플리케이션의 사이버 보안 취약점에 대한 경각심이 날로 고조되면서, 이같은 AI BOM의 필요성도 함께 부각되고 있다.
윤대균 아주대 교수는 “아직 국제적으로 통용될 수 있는 표준이나 도구가 정립되어 있지 못한 상태”라면서도 “AI-BOM은 기존 소프트웨어 개발에서 사용되던 Software Bill of Materials(SBOM)의 개념을 AI 영역으로 확장해 살펴볼 수 있다”고 제안했다. SBOM은 이미 널리 보편화된 개념이다. 그러나 이를 확장한 AI BOM은 아직은 그다지 익숙하지 않은 상태다. 윤 교수는 구글 등 빅테크의 표준화와 허깅페이스, 구글, 오픈AI, 미국 정부와 백악관 등 다양한 해외 사례와, 자신만의 아젠다를 이에 추가한 AI BOM 개념의 체계화를 시도, 눈길을 끌고 있다.
AI BOM ‘데이터 투명성’이 핵심 요소
한국지능정보사회진흥원의 ‘이슈리포트’를 통해 이같은 내용의 연구 결과를 공개한 윤 교수는 “SBOM과 AI BOM 모두 시스템 구성 요소에 대한 상세한 정보를 투명하게 제공함으로써 잠재적 취약점을 식별하도록 하고 관련 법규나 표준, 라이선스 정책을 준수하는 데 적절히 활용될 수 있어야 한다는 점에선 같다”고 분석했다. 그러나 “AI-BOM은 SBOM에 비해 학습 및 테스트 데이터에 대한 이력 등 ‘데이터 투명성’이 매우 중요한 요소로 포함되어야 한다.”면서 “또한 AI 모델 성능과 관련된 다양한 메트릭이 포함될 수 있으며, 신뢰도나 편향성, 공정성과 같이 수시로 변할 수 있는 ‘동적인 지표’도 AI-BOM의 일부로 관리될 필요가 있다.”고 구분했다.
그에 따르면 SBOM의 경우 소프트웨어 업데이트 또는 패치 적용과 맞물려 업데이트하게 된다. 하지만 AI-BOM의 경우 신규 데이터로 모델을 재훈련하거나, 기존 모델에 대한 파인튜닝이 진행되면 이에 대한 이력을 반영해야 한다. 신규 학습 데이터셋 정보, 모델 및 파라미터 수정 내역 등이 여기에 포함될 수 있다. 만일 저작권이 있거나 임의 사용이 제한된 데이터로 학습을 했다면, 사용 계약이나 데이터 활용의 적법성 등을 담보할 수 있는 정보도 포함해야 한다.
기존 SBOM 요소 망라, 추가로 윤리성, 설명 가능성 포함
AI BOM은 SBOM의 모든 요소를 포함한다. 즉, 학습 데이터셋 정보, AI 모델 아키텍처, l 알고리듬 및 하이퍼파라미터, 성능 메트릭스 등이다.
업데이트 주기에 따라선 ‘모델 재훈련’, ‘파인튜닝’ 등 지속적 업데이트도 필요하다. 또 프롬프트 인젝션이나, 데이터 포이즈닝처럼 사이버공격에 대비한 모델의 견고성을 평가, 관리해야 한다. 다만 현재로선 “NIST RMF, EU AI ACT와 같은 지침은 있으나, AI-BOM에 대한 구체적인 ‘표준’은 없는 실정”이라고 했다.
또한 AI BOM은 ▲공급망 보안 ▲ 라이선스 준수 ▲ 취약점 관리 등 기존 SBOM의 목적과 겹친다. 이와 함께 ▲AI 윤리 및 책임성 보장 ▲ AI 결과물에 대한 설명 가능성 등도 목적이라고 할 수 있다. AI BOM은 또한 학습 데이터 정보를 포함한 ‘데이터 프라이버시’가 매우 중요하다는 지적이다.
실시간 데이터 학습을 통해 성능을 지속해서 개선하며 모니터링하는 AI 애플리케이션의 경우 이에 대한 이력을 AI-BOM에 모두 담는 것은 현실적으로 불가능하다. 즉, LLM에서 학습용으로 활용한 대규모 데이터에 대해 모든 세부 사항을 AI-BOM을 통해 제공하는 것은 불가능하다.
따라서, 완전한 세부 사항을 제공하는 대신, 데이터셋의 주요 특성, 구성 요소, 잠재적 영향을 판단할 수 있는 가능한 충분한 정보를 체계적으로 제공하는 것이 현실적 대안이다. “이
통해 모델의 능력과 한계, 잠재적 편향, 그리고 적절한 사용 맥락을 더 잘 이해할 수 있도록 함으로써 투명성을 확보하는 것이 바람직하다”는 설명이다. 그래서 데이터셋 정보를 단순히 명시하기보단, 모델에 활용된 데이터셋에 대해 다양한 관점에서 ‘설명’할 수 있는 일종의 ‘문서화’ 기반 접근 방식이 필요할 수도 있다.
‘문서화’ 방식의 8가지 요소
여기서 ‘문서화’의 요소는 대략 8가지 정도로 요약할 수 있다.
▲‘데이터 카테고리’=데이터셋을 다양한 기준으로 분류함으로써 데이터셋의 전반적인 속성 및 어떤 구성 요소가 포함되는지 파악할 수 있도록 한다. 이를 위해 웹 크롤링, 학술 논문, 책, 뉴스 기사 등으로 데이터를 소스 유형별로 분류한다. 또 과학, 문학, 기술, 일반 상식 등 주제별로 분류하거나, 언어별로 분류하기도 한다.
▲‘통계적 요약 정보=방대한 데이터의 특성을 간결하게 정량적으로 설명하는 것이다. 이를 위해 토큰 수, 문서 수 등 카테고리별로 데이터량을 설명한다. 또한 데이터의 최신성이나, 역사/시대적 구분에 의한 시간 또는 생성 시기별로 설명한다. 언어별 분포 역시 설명할 필요가 있다.
▲ 샘플링 또는 대표 예시=실제 데이터 셋의 예 또는 무작위 샘플을 보여줌으로써 데이터의 특성을 구체적으로 이해하거나 실제 내용 및 품질을 직접 확인할 수 있도록 하는 것이다. 단, 이 경우 개인정보 보호를 위한 익명화 작업 등 선 조치가 필요하다. 즉, 카테고리별로 대표적인 데이터 샘플을 제공하고, 무작위 샘플링을 통한 예시를 제공하도록 한다.
▲ 데이터 처리 및 필터링 방법 명시=데이터 전처리 과정의 투명성을 확보함으로써 데이터 품질이나 윤리적 고려 사항을 판단할 수 있도록 한다. 이를 위해 중복 제거 등 클렌징 방식 또는 과정에 관해 기술한다. 또 유해하다고 판단되는 콘텐츠 필터링 기준을 판단하고, 각종 품질 관리 프로세스도 고려한다.
▲ 데이터 출처 및 라이선스 정보=저작권 및 사용 권한 관련 정보를 명시함으로써 법적 투명성을 높인다. 필요할 경우 데이터 사용의 계약 내용도 명시한다. 또한 주요 데이터 소스 목록을 제공하고, 사용된 공개 데이터셋을 명시하도록 한다.
▲ 편향성 및 대표성 평가 정보=데이터셋의 잠재적 편향성에 대해 제3자가 해석 또는 예측할 수 있는 정보를 제공한다. 또 인구통계학적 대표성을 분석할 필요가 있고, 문화적, 지리적 다양성에 따른 정보도 필요하다. 이외에 이미 알려진 편향에 대한 명시적 언급도 해야 한다.
▲ 버전 관리 및 변경 이력=데이터셋의 진화 과정을 추적함으로써 모델 성능이나 기능 변화 원인을 분석하는 데 활용할 수 있다. 또한 데이터셋의 주요 업데이트 시점이나 내용도 분석하고, 데이터를 추가하거나 제거한 이력, 품질 개선 조치 내용 등을 기록한다.
▲ 메타데이터 및 주석=데이터에 대한 추가 컨텍스트를 제공함으로써 품질과 신뢰성 평가를 신속하게 할 수 있도록 한다. 이를 통해 데이터 수집 방법이나 도구, 특정 도메인 데이터에 대한 전문가 검증이 중요하다는 조언이다.