“모델링 단계, 데이터에 적절한 레이블 지정이 가장 중요”
“정확하고 ‘깨끗한’ 데이터 준비, 모델링, 시뮬레이션, 테스트 필수”
[애플경제 전윤미 기자]
인공지능이 급속히 확산하면서 개인정보의 남용과 왜곡, 차별적인 알고리즘 등에 의한 위험성에 대한 우려가 날로 커지고 있다. 전문가나 학자들은 “인공지능 시스템은 입력 데이터의 품질에 따라 결과물이 우수하게 나올 수 있기 때문에 이러한 인공지능의 편향성을 없애는 것은 기술적으로는 가능하다”고 한다. 이들에 의하면 성별이나 이념 등에 대한 의식적 및 무의식적 가정에서 ‘훈련 데이터 세트’를 정리할 수 있다면 편견 없는 데이터 기반의 결정을 내리는 인공지능 시스템을 구축할 수 있다.
인공지능 윤리학자들은 “인간이 생성한 편향된 데이터와 역시 인간이 만든 알고리즘에서 편향을 식별하고 제거하기 위해 지속적인 데이터 확인과 검증이 필요하다”는 주장이다. 또 데이터와 알고리즘에 대한 테스트를 수행하고, 다른 모범적인 신뢰도를 지닌 AI의 사례를 적용하여 이를 최소화할 것을 끊임없이 주문해왔다. 최근 ‘포브스’ 등 전문매체나 맥킨지와 같은 컨설팅기관 등 해외 전문가 집단은 물론, 국내 전문가들도 다양한 모범 사례를 제시, 이를 준수할 것을 권고하고 있다.
특히 맥키지는 신뢰할 만한 인공지능 방법론 몇 가지를 제시, 눈길을 끌고 있다. 우선 △인공지능을 배포할 때 편향된 시스템의 사례 등 잠재적으로 불공정한 편향이 발생하기 쉬운 영역을 예상해야 하고, △인공지능 시스템의 편견을 테스트하고 완화하기 위한 프로세스와 관행을 수립할 것을 주문하고 있다. 또 △인간의 결정에 잠재적인 편향성이 있다는 사실을 인식하고 시스템을 설계해야 하며, △인간과 기계가 함께 가장 잘 협업할 수 있는 방법을 탐구하며, △편향성 연구에 더 많이 투자하고, 연구에 더 많은 데이터를 제공할 것도 강조하고 있다. “다만 이 경우는 개인의 프라이버시를 존중하여 다양한 접근 방식을 채택할 것”도 당부하고 있다.
전문가들에 의하면 본래 인공지능을 기반으로 하는 설계는 흔히 4단계의 워크플로우가 있다. 보통의 인공지능 개발 프로세스는 데이터 준비(Data Preparation), 모델링(AI Modeling), 시뮬레이션 및 테스트(Simulation and Test), 배포(Deployment)의 단계를 거친다.
즉 인공지능 시스템을 위해선 먼저 데이터가 중요하다. AI모델을 위해선 정확한 데이터가 없으면 시스템 자체가 부실하거나 편견에 사로잡힐 가능성이 크다. 만약 모델에 ‘잘못된’ 데이터를 제공하면 정확한 결과를 얻지 못하고 모델이 제대로 작동하기 힘들다. 정보통신기획평가원도 이에 관한 연구를 통해 “모델을 훈련시키려면 수집할 수 있는 만큼 깨끗하고 레이블이 지정된 데이터로 시작해야 한다”며 “이는 워크플로우에서 서 가장 시간이 많이 소요되는 단계 중 하나”라고 강조했다.
흔히 딥러닝 모델이 예상대로 작동하지 않을 경우는 많은 사람들이 매개변수 조정, 모델 미세 조정 및 여러 훈련 반복과 같이 모델을 개선하는 방법에 집중하는 경우가 많다. 이 경우에도 특히 입력 데이터에 중점을 두는 것이 중요하다는 지적이다. 즉, 모델에서 데이터를 이해할 수 있도록 데이터에게 올바른 레이블을 지정해줘야 한다.
인공지능 모델링(AI Modeling) 단계에서 이처럼 데이터에 적절한 레이블이 지정되면 해당 데이터를 기반으로 한 학습이 이뤄진다. 모델링이 성공하려면 이 단계가 가장 중요하다. 이를 통해 가장 정확하고 강력한 결과를 도출할 때 딥러닝, 머신러닝 또는 이들의 조합이 워크플로우에 포함되는 것이다.
과학기술정보통신부이 펴낸 지침서 ‘신뢰할 수 있는 인공지능 실현전략’은 “이 단계에서는 딥러닝 또는 머신러닝 모델(SVM, 의사 결정 트리 등) 중 어느 것을 결정하든 분류, 예측, 회귀 등 인공지능 워크플로우에 사용되는 많은 알고리즘에 직접 액세스하는 것이 중요하다.”고 전제하면서 “광범위한 커뮤니티에서 개발한 다양한 사전 구축 모델을 시작점으로 사용하거나 비교를 위해 사용할 수도 있다”고 권했다.
이에 따르면 또 실제 세계에 배포하기 전에 인공지능 모델이 작동하는지 확인하는 시뮬레이션과 테스트(Simulation and test) 단계를 거쳐야 한다. 즉, 배포하기 전에 모든 모델을 체크하여 모든 것이 예상대로 작동하는지 확인해야 하는 것이다. 만약 모든 입력 및 출력을 시뮬레이션하여 문제가 발생하면 즉시 배포를 중단해야 한다. 배포 단계 역시 배포하고자 하는 장치에 적합한지를 판단하고, 코드를 자동으로 생성하여 해당 플랫폼에서 코드를 효율적으로 실행할 수 있는지를 확인하는 것이 중요하다.
정보통신기획평가원은 “인공지능에서 편향성 이슈가 가장 많이 발생하는 부분이 데이터를 수집하여 가공하는 단계”라며 “많은 데이터의 불필요한 수집, 수집경로의 적절성, 가명화(pseudonymization) 수준과 개인정보의 오남용 등이 문제가 될 수 있다.”고 했다. 평가원은 또한 “처리 과정에서 데이터 결합과 분석 방법을 혼용하게 되면 인공지능이 결정에 도달할 시 편향성 문제와 데이터를 가공하는 과정에서도 여러 가지 문제가 발생할 수 있게 되는 것”이라고 강조했다.
<참조 및 인용 : 맥킨지사, 과학기술정보통신부, 정보통신기획평가원>
