업계 안팎, “개발 과정, ‘인간’이 개입한 ‘레드팀’ 운영 필수”
사용자와 상호작용 ‘에이전트 AI’ 앱 확산될수록 ‘인간’이 중요
‘인간 지능’으로 부정확성, 편향성, 오류, 환각 식별 제거해야
[애플경제 전윤미 기자] 모든 AI 애플리케이션 개발과정에선 완성이나 배포보다 오히려 결함을 사전에 해결하기 위한 테스트 관행이 중요하다는 목소리가 높다. 특히 그 과정에서 생성AI를 뛰어넘는 ‘인간 지능’, 즉 인간의 손길이 필수적이란 지적이다. 이에 ‘인간’을 바탕으로 모델의 수정, 보완을 전문으로 하는 ‘레드팀’ 역할도 새삼 강조되고 있다.
레드팀은 결함을 식별하고 위험한 행동을 줄이는 데 중요한 역할을 할 수 있다. 최근 국내 보안업계나 SW업계 일각에서도 이런 목소리가 날로 커지고 있다. 보안업체인 화이트디펜더의 한 관계자도 최근 “배포 후 오류나 부작용, 심지어 보안상 허점을 드러내는 사례가 날로 늘어나고 있는 현실”이라며 “그럴수록 SW 품질관리나 보안을 위한 테스트 시스템이 더욱 강화될 필요가 있다”고 공감을 표했다.
실제로 최근 일련의 연구에서도 그 필요성을 뒷받침하는 결과가 발견된다. 애플리케이션 분석 전문 사이트인 어플로즈(Applause)가 조사한 바에 따르면 대상 기업의 3분의 1만이 AI 애플리케이션 개발에 적절한 테스트 관행을 채택하고 있는 것으로 나타났다. 개발자들 대부분은 AI 애플리케이션과 기능을 개발 중인데, 그 중 절반 이상(55%)이 챗봇과 고객 지원 도구에만 관심을 둘 뿐, 사전 테스트 필요성은 그다지 느끼지 않고 있는 것으로 나타났다.
“여전히 많은 기업들, 테스트 관행 외면”
이에 “만의 하나 있을 수 있는 위험을 줄이기 위해서도 레드팀을 확대해야 한다”는 목소리가 높아지고 있다. 문서보안에서 네트워크 보안으로 발전해온 ‘더코더’사의 부사장 L씨도 “AI 애플리케이션 개발이 가속화되고 있음에도 불구하고 많은 회사들이 소프트웨어 개발 라이프사이클 동안 품질 보증(QA) 노력을 간과하는 경향이 많다”면서 “당장은 몰라도, 장기적으로 이는 앱의 품질과 장기적인 투자 수익(ROI)에 부정적인 영향을 미칠 수 있을 것”이라고 지적했다.
특히 그는 “생성 AI 모델이 새롭게 자리잡고, 그에 기반한 새로운 애플리케이션이 우후죽순격으로 쏟아지고 있어 더욱 그 필요성이 커지고 있다”고 했다. 즉, “이들을 테스트하고 출시하는 방법에 대한 기준을 높여야 한다”면서 “AI 애플리케이션 개발 역시 결국은 인간의 손길이 중요하다”고 덧붙였다.
주목을 끄는 것은 그 뿐 아니라 많은 전문가들이 “개발 라이프사이클에서 인간의 참여가 중요하다”고 입을 모으는 점이다. 즉, 개발자가 일상적인 워크플로에서 생성 AI 도구 사용을 늘릴수록, 다양한 문제를 식별하고 해결하기 위해 ‘인간의 손길’이 필요하다는 주장이다.
“인간의 테스트가 최고의 품질관리”
AI를 뛰어넘는 인간만의 이성과 지각으로 애플리케이션의 부정확성, 편향성, 그리고 인간에게 유해한 오류나 환각 등의 문제를 식별, 걸러내야 한다는 주문이다. 앞서 L부사장은 “이란 ‘인간 테스트’가 포함된 프로세스야말로 최고의 QA 관련 활동”이라며 “그런 QA를 통해 신속하고 정확한 응답 수준이나, 사용자의 접근성 등을 점검하고, UX 테스트로 병행해야 할 것”이라고 주장했다.
그러면서 “산업별 SW나, 틈새 솔루션과 모델을 훈련하는 특히 ‘인간’이 중요하다”고 했다.또 최종 사용자와 직접 상호 작용하는 ‘에이전트 AI’ 애플리케이션과 같은 신기술 기반의 제품이 늘어날수록 그 당위성은 커진다는 진단이다.
그렇다보니 ‘인간’이 작동하는 일종의 비상 대응팀, 일명 ‘레드팀’의 역할이 날로 강조되고 있다. 그러나 앞서 ‘어플로즈’ 조사에서도 드러났듯이 현재는 기업의 3분의 1(33%)만이 애플리케이션 개발 프로세스에서 ‘레드팀’에 의한 테스트를 적용하고 있는 실정이다. 이 경우 ‘레드팀’은 플랫폼이나 애플리케이션의 잠재적인 약점을 식별하기 위해 사이버보안에서 일반적으로 사용되는 ‘적대적 테스트’ 관행을 구사한다.
그래서 AI 애플리케이션을 개발할 때 ‘레드팀’을 중시해야 한다는 목소리도 높다. “모델의 편향성이나 부정확성, 각종 오류 등과 같은 문제를 해결하기 위해 ‘인간’이 개입하는 ‘레드팀’의 역할이 크다”는 주문이다.
생성AI 발달할수록 애플리케이션 결함 지속
‘레드팀’을 가동, 점검해야 하는 AI앱의 문제는 앞서 언급한 편향된 반응을 비롯, 환각, 그리고 엉뚱하거나 공격적인 반응 등이 대다수다. 특히 ‘환각’은 AI 개발 과정에서 가장 지속적으로 제기되고 있는 문제였다.
물론 생성AI 붐 초기 이후로 상황이 눈에 띄게 개선되었지만, 여전히 많은 사용자들을 현혹시키거나 불신을 조장하는 원인으로 지목되고 있다. 실제로 지난해 8월 KPMG의 연구에 따르면, 10명 중 6명의 기술 리더가 생성AI 도구와 애플리케이션을 도입하거나 구축하는 과정에서 ‘환각’을 가장 대표적인 문제로 꼽았다.
그렇다보니 최근엔 이를 염두에 둔 긍정적인 변화도 이어지고 있다. 국내 유력 보안업체 파이오링크 관계자는 “이미 많은 SW개발업체들이 개발 초기 단계에서부터 AI 테스트 측정을 개발 라이프사이클에 포함시키고 있다”고 했다.
그는 “이런 경우 사전에 다양한 고품질의 데이터 세트를 사용한, 강력한 모델 학습 방법을 구사하고 있다”면서 “그렇다보니 대체로 ‘레드 팀’ 운영에 긍정적”이라고 업계의 분위기를 전했다.
그 역시 ‘인간’의 중요성을 강조했다. “모든 생성AI 사용 과정에서 맞춤형의 고품질 제품이 필요한데, ‘인간 지능’이야말로 그 필수적 존재”라면서 “인간이 개입해 모델 데이터 점검, 모델 평가, 현실 세계에서의 포괄적인 테스트 등 개발 프로세스를 주도할 수 있다”고 했다.
