“양질의 합성데이터로 AI 진화에 기여”
“AI 학습을 발전시키기 위해선 특히 풍부한 양질의 합성데이터가 필요합니다. 이를 위해선 이미지와 미디어 데이터를 생성하고 변환하여 합성 데이터를 생성해야 합니다. 본사는 이 분야에서 차별화된 노하우와 기술을 갖춘 스타트업입니다.”
‘가상데이터’라고도 불리는 합성데이터는 AI의 품질을 높이고, 오류를 최소화하는 결정적 변수 중 하나라고 해도 과언이 아니다. 그래서 이 분야에서 고품질의 합성데이터 세트를 생성하기 위한 경쟁도 치열하다.
젠젠AI의 조호진 대표는 “이 분야에서 남다른 경험과 기술을 갖추고 있다”면서 “AI 기술이 다양한 산업에 적용되면서 AI 학습을 위한 데이터 시장도 빠르게 성장하고 있다”면서 최근 시장 흐름을 소개했다.
그에 따르면 자동차, 드론, 로봇 등 자율주행, 헬스케어 등 특정 산업 분야에서 AI 학습을 위한 데이터 수요가 날로 폭증하고 있는 현실이다.
조 대표는 “그러나 실제 데이터를 얻는 데는 여전히 엄청난 시간과 노력, 비용이 필요하다”면서 “특히 GAN(적대적 생성 신경망)을 적용한 이미지나 비디오 데이터를 생성, 변환시키면서 AI 학습용 합성 데이터를 생성하는 원천기술 개발을 목표로 하고 있다”고 밝혔다.
그는 또 자사 특유의 미디어 데이터 기술도 소개했다. 이른바 모바일 영상의 초해상도 및 이미지 샤프닝이 대표적이다. 이는 “휴대폰에서 직접 실시간 처리하는 경량 엣지 인공지능 기술”로 설명된다.
“이를 통해 영상 사용자를 위한 끊김 없는 고화질 미디어 콘텐츠 영상(OTT)이 생성될 수 있다”면서 “그로 인해 해당 영상 제공업체의 네트워크 트래픽이나 네트워크 요금이 절감된다”고 강조했다.
이같은 과정을 통해 마침내 AI 학습을 위한 합성데이터를 생성하게 된다는 설명이다. “젠젠AI는 현재 자체 원천기술에 의해 AI 학습을 보조하기 위해 3가지 유형의 합성 데이터를 생성하고 있다”는 조 대표의 얘기다.
그에 따르면 첫 번째 유형의 합성 데이터는 실제 데이터세트를 생성하는 것이다. 두 번째 유형은 실제 데이터 없이 가상 데이터를 생성하는 경우다. 세 번째 유형은 위의 두 유형을 혼합한 유형이다.
조 대표는 “이같은 합성 데이터는 실제 세계를 대표하는 데이터 다양성을 제공함으로써 개인 정보 보호 문제를 해결하고, 편견을 줄이는 데 중요한 역할을 한다”고 했다.
젠젠AI는 지난 달 ICT분야 스타트업 전시회인 ‘컴업2023’에도 참여, 자사의 데이터 생성 기술을 선보이기도 했다.
조 대표는 “특히, 우리가 개발한 합성 데이터는 의료, 로봇, 드론, 자율주행차 분야에서 예측할 수 없는 상황에 대한 무한한 이미지를 생성하고, AI 개발 과정에 필요한 모든 데이터 세트를 제공한다”면서 “이를 통해 AI의 진화에 크게 기여하고 있다”고 밝혔다.
