“데이터 구축 과정 중 예산 투입 작업요소 분석, 참고 기준 제시”
지능정보사회진흥원…‘AI학습용 데이터 유형인 텍스트․이미지․음성․비디오’ 분석
[애플경제 전윤미 기자] AI 학습용 데이터 구축 비용을 산정하는 매뉴얼이 만들어져 관심을 끈다. 이같은 일종의 ‘가이드’를 마련한 한국지능정보사회진흥원은 “AI학습용 과정을 사전에 점검하여 필요한 작업 내용과 소요예산을 확인하고, 적정 비용을 산정할 수 있도록 하기 위한 것”이라고 취지를 밝혔다.
이에 따르면 AI 학습용 데이터의 대표적인 4가지 데이터 유형인 ‘텍스트, 이미지, 음성, 비디오’ 등 각각의 데이터 구축 단계별 작업 내용을 분석하여 제시했다. 각 작업을 수행할 때예상되는 비용을 산정하기 위한 지침을 담았다.
AI 학습용 데이터 구축은 AI의 품질과 정확도 등을 좌우하는 만큼, 많은 시간과 비용이 소요되는 작업이다. 이에 따른 비용 또한 부담이 클 수 밖에 없다. 기업으로선 시행착오를 줄이고 적정 비용을 산정하는게 가장 바람직하다고 할 수 있다. 진흥원은 이에 “AI 기술에 관심 있는 연구자, 산업계 등에서 참고할 수 있는 가이드를 제공하여 원활한 시장 진입을 유도하고 건전한 시장 환경을 조성할 필요가 있다”고 강조했다.
이에 따르면 기업이나 산업계의 AI 학습용 데이터의 구축 노하우는 기업 자산으로 인식되어 시장에서 관련 정보가 확산될 수 없는 현실이다. 이에 전통산업체나, 신규로 AI 시장에 진입하려는 기업에게는 높은 진입장벽일 수 밖에 없다. 이를 극복하려면 거액의 비용을 부담해야 하므로, 스타트업이나 소기업으로선 사실상 어려운 상황이다.
현재 국내 AI 학습용 데이터는 정부 주도로 대규모 데이터 구축과 개방이 추진되고 있다. 그간 축적된 자원을 활용하여 표준 가이드를 제시하고 있다. 진흥원은 이에 “‘AI 학습용 데이터 구축 사업’의 실제 수행 내용을 바탕으로 고품질 데이터 구축을 위한 안내서 2종을 제작하여 일반에 공개하고 있다”고 밝혔다. 이는 ‘AI 학습용 데이터 품질관리 가이드라인 v2.0(’22.1)’ 2종(1권 품질관리 안내서, 2권 데이터구축 안내서)이며, 매년 업데이트를 진행하고 있다. 이번 ‘비용산정 가이드’는 안내서의 후속작업으로, 데이터 구축 과정 중 예산이 투입되는 작업요소를 분석하여 참고 기준을 제시하고 있다.
진흥원에 따르면 해당 ‘가이드’는 AI 학습용 데이터 구축에 관심 있는 기업‧기관‧학계 등을 대상으로 구축 과정의 비용 요소를 총체적으로 제시하고 있다. Ⅰ장은 ‘AI 학습용 데이터 구축 비용산정 가이드’의 총괄적인 내용을 소개하는 장이다. 추진 목적, 추진 배경, 구성 체계, 적용 범위 및 향후 계획으로 구성된다. Ⅱ장은 주요 용어들을 정의하고 해설하는 장으로, AI 학습용 데이터의 특징과 구조, 비용을 산정할 때 고려되는 요소들이다. Ⅲ장은 데이터 구축 비용산정을 위한 프로세스를 제시한 장으로, 비용산정 절차, 데이터 4개 유형별 작업요소와 작업요소별 설명으로 되어 있다.
이는 또 “활용 가능한 AI 학습용 데이터를 도출하는 전 과정 중 예산 투입 비중이 높은 데이터 구축 과정으로 한정하여 산정 기준을 제시하고 있다”는 설명이다. 구축 과정 중 데이터 수집부터 AI 알고리즘 학습에 필요한 데이터 한 쌍(원천 데이터+라벨링 데이터)을 생성하는 단계까지의 작업요소와 소요비용을 분석한다. 즉, 구축 절차에 따라 품질에 결격 사유가 없는 데이터 한 쌍을 도출했을 경우, 현장에서 활용 가능한 수준의 데이터라고 할 수 있다.
진흥원은 “AI 학습용 데이터를 구축하기에 앞서, 과업에 대한 임무정의 및 구축 기획·설계 과정이 선행되어야 하며, 해당 과정에 대한 비용은 ‘가이드’에 반영되지 않고 있다.”고 밝혔다. 또한 “‘작업요소’는 데이터 구축 시 중복되지 않는 최소 단위의 작업(TASK)으로, 데이터 유형별로 필요한 작업과 각 소요비용 산정 기준을 제시하는 것”이라며 “가이드가 디지털 플랫폼 경제 시대에 국민이 필요로 하는 공공서비스를 창출하고, AI 산업 경쟁력을 높이는 데 귀중한 자원으로 활용되길 바란다”고 밝혔다.
