‘사람 중심 AI’ 위한 투명․공정․안전,설명가능한 AI 개념 등장
국내 학계각 ‘인식론적․내재론적 불확실성 등 통계학적 연구’ 중
“모델과 데이터 등 불확실성 종류․특성 파악, 관측 기술 개발”

인공지능 신경망 기술이 적용되는 분야를 설명한 이미지.(사진=게티 이미지)
인공지능 신경망 기술이 적용되는 분야를 설명한 이미지.(사진=게티 이미지)

[애플경제 이보영 기자]알고리듬의 오류로 인한 사회적 폐해가 날로 심각해지면서, 그 바탕이 되는 AI기술의 신뢰도가 더욱 중요해지고 있다. 잘못된 데이터 라벨링 등 이른바 ‘대량살상수학무기’(WMD)로 인한 피해도 크다. 그럴수록 AI의 오류를 막기 위해 그 불확실성을 ‘정량화’하여, 신뢰도를 높이는 기술의 연구도 활발해지고 있다.

AI 불확실성 정량화는 데이터 수집 단계에서부터 그 상황을 분석하고, 데이터의 품질을 관리하는데서부터 시작된다. 최근 성균관대학교 신지태 교수팀은 이에 대한 연구보고서를 통해 “모델 측면에서부터 데이터 측면에 이르기까지 발생 가능한 불확실성의 종류 및 특성을 파악하여 그에 맞는 기반 관측 기술이 등장하고 있다”면서 “이는 의료 영상 분석, 자율 주행 등 다양한 산업 분야에서 불확실성을 감소시킨다”고 필요성을 강조했다. 이와 함께 “모델 의사 결정에 대한 신뢰성을 제공하여 AI성능을 최대화한다”고 덧붙였다.

이미 AI의 오류나 불확실성을 극복하기 위한 노력으로 ‘사람 중심 AI’ 개념이 등장하는 등 대안을 강조해온 목소리가 높다. 그 구체적인 실천방안이 이른바 ‘설명 가능’한 AI, ‘투명한’ AI다. 예컨대, 딥러닝은 높은 정밀도를 보이지만, 사람이 이해할 수 있도록 이유를 설명할 수는 없다. 이것은 이른바 ‘블랙박스 문제’인데, 결과적으로 무언가 문제가 발생했을 때 ‘원인 불명’이나 ‘책임 판단’을 할 수 없으며, 그렇게 되면 사람에게 불이익이 있을 수 있다.

또 사람 중심 AI는 ‘공평한 AI’여야 한다는 주장도 있다. 기계학습에서는 학습용 데이터에 치우침이 있으면, 편견이나 차별이 증강된다. 해외에서는 특정 인종만 재범률이 높은 것으로 판정되거나 얼굴 인증 시스템의 인식률이 낮아 불이익을 당하는 사태가 발생하고 있다.

요즘에는 채용이나 면접에서 AI가 사용되는 경우가 증가했는데, 성별이나 인종에 따라 편견에 치우친 판정을 내리지 않는 AI가 필요하다는 것도 공평한 AI의 결론에 포함된다.

시장분석기관인 IRS글로벌은 “‘공격적이고 악의적인 AI’도 역시 AI 생성 과정의 오류 내지 불확실성에 기인한 경우로 꼽을 수 있다.”고 제시한 바 있다. 그래서 “악의를 가진 사람이 학습용 데이터를 수정하거나 오인식을 유발시킬 경우, 사람 중심 AI는 이에 견딜 수 있어야 한다.”며 사례를 들었다. 즉 악의를 가진 사람들이 마이크로소프트의 AI 챗봇 ‘Tay’에 대해 편중된 데이터를 ‘제공’하여, 차별적이라는 이유로 하루 만에 가동을 중지했다.

또한 사람이 깨닫지 못하는 아주 작은 가공이나 세공으로 인해 영상 인식 AI가 편견을 가지도록 하는 기술(적대적 샘플)도 문제가 되었다. 공격성이나 악의를 가진 AI는 사람의 생명을 지킨다는 관점에서, 특히 자율주행 등의 분야에 있어 중요시되는 요소다. 그래서 “사람의 주체적인 의사결정을 해치치 않는 AI, 즉 ‘사람 중심 AI’라는 개념도 제시되고 있다.

이는 SNS 등 디지털 공간에서의 대량 텍스트 생성, 또는 딥러닝 등 동영상 생성 기술의 남용ㆍ악용을 염두에 둔 의견이다.

그래서 이같은 AI 불확실성을 극복하고 신뢰를 확보하기 위한 다양한 기술적 노력이 진행되고 있다. 앞서 신지태 교수팀은 한국지능정보사회진흥원에 기고한 ‘최신 AI 불확실성 정량화 동향 및 시사점’ 논문을 통해 “AI 신뢰성 개념은 인공지능이 내포한 위험과 기술적 한계를 해결하고, 활용・확산 과정에서의 위험・부작용을 방지하기 위한 가치 기준을 포함한다.”고 했다.

이에 따르면 안전(Safety), 투명성(Transparency), 설명 가능성(Explainability), 견고함(Robustness), 공정(Fairness) 등이다. 이를 확보하기 위해 인공지능의 불확실성을 제거해야 하는 ‘불확실성 정량화’인 것이다.

구체적으로 신 교수팀은 인식론적 불확실성 측면에서 ‘편향-분산(bias-variance)’과 ‘유사도’, 두 가지 문제를 꼽는다. 그 중 ‘편향-분산’ 문제는 지도 학습 과정에서 발생하는 일반화의 오류를 지적한 것이다. 또 ‘유사도’는 모델 학습이 끝난 후 미리 예측되는 결과를 의식한 입력으로 인한 불확실성이다.

이와 함께 이른바 내재적 불확실성, 즉 데이터 수집 과정에서 발생하는 불확실성도 문제로 꼽았다. 그 중 데이터 입력에 따라 확률적으로 불확실성이 증대되는 이분산(異分散)과 등분산(等分散)의 불확실성으로 나뉜다. 이분산은 설명변수의 값이 커짐에 따라 관찰치들이 더욱 넓게 펴지는 현상이다. 이는 어떤 데이터를 어떻게 입력하느냐에 따라 불확실성이 커진다. 그래서 “입력 공간의 일부 영역에 대한 불확실성이 더 클수록 이를 해소하기 위한 이를 정량화하기 위한 기술이 중요하다”는 지적이다.

이에 비해 등분산성 불확실성은 입력 데이터에 기인하지 않는다. 즉 모든 입력 데이터에 대해 그 신뢰성이 일정하게 유지되지만, 서로 다른 작업이 교차하면서 다른 값이 도출되는 현상이다. 그래서 “작업 종속적 불확실성”이라고 정의했다.

이같은 AI불확실성을 파악하고, 이를 극복하기 위한 연구도 지금도 활발히 진행되고 있다. 역시 해당 연구에 몰두해온 신 교수팀은 “모델 관점에서의 인식론적 불확실성과 데이터의 내재적 불확실성을 파악하여 감소시키는게 관건”이라며 “이를 위해 확률적 모델링을 활용한 수식화 및 앙상블을 활용한 분산분석, 학습 영역과 테스트 영역 사이의 유사도 측정 등을 포함한 기술 연구가 이어지고 있다”고 동향을 소개했다.

저작권자 © 애플경제 무단전재 및 재배포 금지