기업 혁신의 또 다른 비결 “고품질 데이터 AI 모델”

전문가들 “고품질의 신뢰할 만한 데이터, 적시 확보, 제공하는게 중요” 신속하고 정확한 AI 학습 기술도 중요, “AI기반 비즈니스 혁신의 키워드”

2022-06-30     김홍기 기자
사진은 '2022 국제인공지능대전'에 출품한 업체의 부스이며, 본문과는 직접 관련없음.

[애플경제 김홍기 기자] 데이터를 적절하게 수집, 마이닝하고 이를 비즈니스 현장에서 적절히, 그리고 적시에 적응시킬 수 있는 데이터 기반 AI 모델이 R&D 성과와 기업 경쟁력의 핵심 요소로 평가되고 있다. 이를 위해선 고품질 데이터 기술과 빠르고 정확하게 AI 모델을 학습하는 기술이 강조되고 있다. 최근 산업기술진흥원에서도 데이터 기반의 AI 모델을 통해 이른바 소재 산업의 첨단화와 디지털화를 꾀하는가 하면, 데이터산업진흥원이 기업의 AI 기반 혁신을 위한 데이터 기술을 강조하고 있는 것도 그런 경우다.

특히 산업계에선 날이 갈수록 데이터 기반의 AI 모델을 통해 성공적인 혁신을 기해야 한다는 공감대가 널리 확산되고 있다. 이를 위해선 그러나 고도화된 AI 모델의 도입만으로는 부족하며, 수많은 기술들의 최적화된 조합과 활용이 필요하다. 전문가들은 AI 기반 혁신에 대한 분명한 비전을 갖고, 고품질 데이터 기술을 확보하며, 신속하고 정확한 AI 학습을 위한 기술이 필요하다는 주문이다.

‘AI기반 혁신’은 쉽게 말해 다양한 데이터를 빠르게 검증하고 적시에 비즈니스에 반영하여 기업의 경쟁력을 확보하는 것이다. 그러면 혁신적인 아이디어나 데이터를 비즈니스 가치로 전환 하려면 어떻게 할까. 이에 대해 데이터산업진흥원의 분석 자료를 재인용한 엔지니어링 자료(freepsw 아이디)에 따르면 “수많은 혁신적인 실험을 시도하며, 최적화를 통해 기업의 가치를 혁신적으로 향상하는 방식”을 추천하고 있다.

이 경우엔 특히 더 많은 아이디어를 빠르게 검증할 필요가 있다. 즉 “좋은 제품은 수 많은 실험적 아이디어 중에서 도출되며, 이러한 반복적인 실험을 효율적으로 빠르게 할 수 있는 환경이 중요하다”는 것이다.

이를 위해 극복해야 할 장애 요인도 많다. 그 중 대표적인 경우가 적시에 필요한 고 품질의 데이터를 제공하고, 더 많은 아이디어를 검증함으로써 학습 속도를 높이는 것이다. 또 수많은 모델의 중복 투자와 재사용을 통한 모델 공유, 협업을 실현할 수 있어야 한다. 배포 성능이나 안정성, 설명력 등과 같이 모델을 적절한 운영환경에서 배포하는 것도 중요하다.

특히 핵심은 고품질 데이터를 확보하는 기술이다. 전문가들은 데이터 준비 단계에서 데이터의 품질이 보장되지 않거나, 너무 늦게 제공된다면 비즈니스에 미치는 영향도 감소된다는 사실을 명심해야 한다고 당부한다. 즉, 고품질의 신뢰할 수 있는 데이터가 적시에 확보되어야, AI기반의 비즈니스 혁신이 가능하다는 얘기다. 이 경우 ‘AI 파이프라인’을 기준으로 각 단계를 보면 ‘Collect Data’ 단계에서 시작돼 ‘Prepare Data’, ‘Train AI Model’, ‘Monitor AI Model’, ‘Deploy AI Model’, ‘Manage AI Model’의 단계를 거치는게 바람직하다.

그런 다음 분석에 필요한 고품질의 데이터를 적시에 제공하기 위한 기술도 특히 중요하다. 즉, 대량의 데이터를 빠르게 학습하기 위한 인프라와 알고리즘이 필요하며, 실제 비즈니스에 적시에 배포하고 안정적으로 운영할 수 있어야 한다. 그래서 데이터를 적시에 고품질로 제공할 수 있어야 한다. 이를 위해선 데이터의 수집에서 활용까지 단계별 품질 지표나 버전을 관리하고, 전체 파이프라인의 자동화가 중요하다.

우선 통합 데이터 관리가 중요하다. 흔히 ▲ 조직/부서별 목적에 따라 발생하는 Data Silo를 극복하고 ▲ 데이터 통합 관리로 원하는 데이터를 쉽게 찾도록 구성해야 한다. 또 모든 데이터는 잠재적 오류(Null,값 중복, 값 오류)를 포함하거나, AI 알고리즘의 오류를 유발하는 경우도 있다. 이를 위해 단계별로 오류를 보정(ML활용)하거나 추적관리를 해야 한다.

또 빠르게 AI 모델을 학습하는 기술도 필수적이다. 즉 학습에 필요한 데이터를 빠르게 처리하는 기술(RAPIDS)이 있어야 하고, 데이터를 처리할 때 CPU를 활용하는 영역에 GPU를 적용하여 데이터 처리 성능을 향상시켜야 한다. 분산된 데이터를 통합하여 빠르게 조회하는 기술(Alluxio)도 중요하다. 즉, 다양한 데이터 소스를 하나의 논리적인 스토리지로 연결하는 메모리 기반 분산 파일시스템이 있어야 한다. 또 다양한 비즈니스 아이디어를 빠르게 검증하여, 더 좋은 AI Model로 발전하기 위한 환경도 필요하다.

이 경우 AI Model 학습의 성능을 제약하는 요소들을 극복해야 한다. 이를 위해 모델 학습 시간에 영향을 미치는 요소들을 파악하고, 이를 해결하기 위한 기술을 도입해야 한다. 또 모델의 복잡성이 증가하거나, 하드웨어 성능의 한계를 보이는 경우, 이를 해소할 수 있어야 한다.

궁극적으로 AI Model 학습 성능을 향상하는 것이 중요하다. 이를 위해선 학습할 데이터 처리 시간을 단축하고, 데이터를 분산 및 병렬로 학습하여 성능을 향상토록 한다. 즉 ▲학습 데이터 조회 성능을 개선하고 ▲ ‘Feature Store’, 즉 학습을 위해 생성된 ‘Feature’를 다른 AI Model 에서도 재사용할 수 있도록 제공해야 한다. 또한 ▲분산 학습 아키텍처, 즉 AI Model 학습을 분산하여 학습성능과 속도를 향상시키며, 데이터 분산 학습과 모델 분산 학습 방법을 제공하도록 한다.

이를 통해 적시에 다양한 AI 모델을 비즈니스에 빠르게 적용할 수 있도록 한다. 이를 위해선 “데이터의 수집에서 활용까지 단계별 품질 지표 및 버전 관리와 전체 파이프라인의 자동화가 중요하다”는 전문가들의 조언이다. 이에 따르면 ▲통합된 모델 배포 환경을 구축하고, ▲Biz Logic과 모델을 함께 배포할 수 있는, 쉬운 모델 배포 환경을 조성하며, ▲ 중단없는 AI서비스를 제공하고, 요청에 따라 자동 확장이 가능하며, 사용량에 따라 자원을 회수하여 효율적으로 사용할 수 있는 환경을 만들어야 한다.

한편 산업기술진흥원은 이같은 데이터 기반 AI모델을 활용해 “민관이 협력하여 미래 소재산업의 경쟁력 강화를 위한 산업소재 디지털화를 추진한다”고 30일 밝혀 눈길을 끈다. 이를 통해 “기업들이 디지털 소재 데이터 및 데이터 기반의 AI 모델을 널리 활용할 수 있는 인프라 구축 방안을 마련할 예정”이라는 설명이다.

진흥원은 이를 위해 ‘AI 표준 모델’, 즉 원료, 조성, 공정, 물성으로 이어지는 소재 데이터셋(Data set)을 바탕으로 소재의 물성값을 예측하는 모델을 구축할 예정이다. 이에 대해 “신소재를 개발하려는 기업은 AI 모델을 바탕으로 직접 물리적 테스트를 하는 데 들이는 비용과 시간을 절약할 수 있다.”면서 “이미 지난해부터 화학, 금속, 세라믹, 섬유 분야의 신소재 혁신을 위한 8대 선도 프로젝트를 선정하여 AI 시범모델을 도출하고 소재 데이터 97만여건을 축적했다.”고 설명했다. 이는 데이터 기반 AI 모델을 활용한 소재 첨단화의 대표적인 사례로 주목을 받고 있다.