1월5일 [AI-①] 디지털 전환 핵심 경쟁력 ‘AI·데이터’
1월9일 [AI-②] AI 학습용 데이터 정의 및 구축 방법
AI 학습용 데이터 구축사업을 통해 데이터를 구축했음에도 불구하고 여전히 데이터의 양과 활용성이 부족하다는 이슈가 발생하고 있다. AI 학습용 데이터를 구축할 수 있는 모든 방식을 점검해 데이터의 구축 방법을 개선하는 방안을 모색해야 한다.
분석 방법에는 전체 학습용 데이터 구축 방법과 국내 학습용 데이터 구축사업과의 매핑(Mapping) 연관성을 분석하는 것이 그 중 하나이며 AI 학습용 데이터 구축 방법 14가지를 기준으로 설정하고 국내 AI 학습용 데이터 구축사업을 정리해 사업별로 데이터 구축사업 세부 내용을 구축 방법과 매핑하고 결과 부분을 분석하고 검토를 통해 주요 이슈를 도출하는 것이 또 하나다.
한국은 AI 산업 활성화를 위해 2017년부터 대규모 AI 학습용 데이터 구축·활용을 위한 사업 및 정책을 추진해 왔다. 데이터를 구축하고 활용 인프라를 제공하는 AI 학습용 데이터 구축사업과 AI 기술이 필요한 수요기업과 AI 기술을 보유한 공급기업을 매칭하는 바우처 사업을 진행 중이다.
또 가장 최근에는 대규모 데이터를 구축해 분야별 산업 전반으로 활용될 수 있는 데이터 댐 구축 정책을 발표해 다양한 산업과의 융합 확산도 추진 중이다.
AI 학습용 데이터 구축사업은 정부가 AI 개발에 필요한 양질의 데이터를 대규모로 구축하고 개방하기 위해 시작한 사업으로 국내 중소벤처기업, 연구소, 개인 등이 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 양질의 대용량 인공지능 학습용 데이터를 구축·공개했다,
AI 바우처 사업은 중소·벤처 기업의 자체적인 AI 활용 한계 극복을 위해 AI 도입을 희망하는 기업에 AI 솔루션과 서비스를 지원한다. AI 기술을 적용하고자 하는 기업(수요기업)이 AI 솔루션이나 서비스를 제공하는 기업(공급기업)의 제품을 구매하는 방식으로 추진하며 기업당 최대 3억원 지원한다.
디지털 뉴딜 정책은 대규모 데이터 구축(데이터 댐)을 통해 코로나19 이후 경기침체 극복을 위한 일자리 창출 효과를 기대할 수 있으며 경제 성장의 새로운 원동력을 확보할 수 있다. 또 데이터의 가치사슬 전 주기 활성화를 위해 데이터 수집, 축적·가공, 활용, 데이터·AI 인프라 확충 사업을 수행한다.
대용량의 데이터 구축을 위해서는 목적에 따라 자동화 도구의 활용, 기존 데이터 재가공도 필요하지만 현재 크라우드 소싱을 통한 데이터 구축에 집중해야 한다.
2020년도 이후부터 크라우드소싱을 통해 대규모 데이터를 구축하고 공동으로 관리·활용하는 방식으로 사업을 추진하고 있다.
데이터에서 누락된 부분 보완 등 기존 데이터 세트를 보완하는 사업은 추진 중이나 데이터 자체의 특징을 분석하고 의미를 새롭게 파생하는 데이터 구축 작업은 상대적으로 작은 규모다.
기계를 활용한 대량 라벨링, 예측 라벨링 등 자동 라벨링 기술 활용을 통한 데이터 구축은 직접 라벨링에 비해 작은 규모다.
데이터 품질 관리가 사업의 핵심 요소로 계속 추진되고 있으나 여전히 데이터 품질 이슈가 존재한다. 데이터 편향 제거, 정제, 노이즈 개선, 기존 라벨링 데이터 관리 등 데이터 품질 관리는 사업 계획서에서 강화되는 경향이 있다. 하지만 산업계에서는 여전히 AI 학습에 사용되는 데이터의 품질에 관한 이슈가 제기되는 상황이다.
AI 모델의 편향 이슈를 해결하기 위햐서는 장기적 관점에서 AI 모델의 편향과 노이즈를 최소화하며 데이터를 구축해야 한다.
현재 대용량 고품질의 데이터를 구축에 초점이 맞춰져 있으며 AI 모델의 편향과 노이즈를 제거하는 부분은 상대적으로 미흡하다. 아직 데이터 구축을 시작하는 초기 단계이지만 데이터 구축과 함께 AI 모델의 편향을 제거하고 성능을 향상하는 면을 고려한 구축 방식이 다소 적은 상황이다.
