‘목업’ 방식…속도 늦고 비용 부담, ‘정확도’ 떨어져
생성AI 기반 ‘스테이블 디퓨전 모델’ 각광, 정확․효율적 이미지 획득
가우시안 노이즈 후 ‘디노이징’ 또는 ‘잠재 벡터’ 데이터 노이즈 제거

지난해 '컴업 2023'에 출품된 젠젠에이아이의 표적 식별용 IR데이터 개념도로서, 본문과 직접 관련은 없음.
지난해 '컴업 2023'에 출품된 젠젠에이아이의 표적 식별용 IR데이터 개념도로서, 본문과 직접 관련은 없음.

[애플경제 전윤미 기자] 합성데이터를 만들기 위해 최근엔 기존의 물리적 목업 방식 대신, 생성AI가 더욱 발전된 도구인 것으로 인식되고 있다. 특히 생성AI 기반의 잠재 벡터 상태에서 노이즈를 제거, 이미지를 생성하는 ‘스테이블 디퓨전’ 방식이 주목받고 있다.

애초 가장 유용한 합성 데이터 생성 방법으로 알려졌던 디지털 목업은 가상의 데이터를 위해 실제 피사체와 유사한 형태의 모형을 제작하는 것이다. 그러나 이는 개발속도와 비용이 생명인 AI개발에 있어서 제작 기간이 길고 비용이 많이 든다는게 단점으로 꼽힌다. 또 비교적 자유롭게 장면과 피사체를 제작할 수 있으나, 센서의 특성을 반영하기 어려워 AI를 개발할때 정확도에 문제가 생긴다는 지적이다.

3D 시뮬레이션 방식도 정확도 떨어져

이에 컴퓨터 그래픽스나 게임 기술을 활용한 3D 시뮬레이션도 활용되고 있으나, 이 방법 역시 문제가 있다. 즉, “실세계를 수식으로 추상화하여 표현하기 때문에 실제 카메라나 센서의 특성과는 차이가 있다”는 것이다. 그 때문에 3D시뮬레이션 이미지를 실제 AI 학습에 사용할 경우 물체를 검출하고 인식하는 정확도가 20~30% 저하된다는게 전문가 일각의 지적이다. 이에 최종 대안으로 꼽히는게 생성AI에 의한 방식이다.

데이터마이닝과 합성데이터를 구축해온 조호진 젠젠에이아이 대표는 “생성AI는 전문가 수준의 문자열을 생성하기도 하고, 실제 센서 품질의 이미지나 비디오를 생성하는 것에 특화된 기술”이라며 “합성 데이터뿐만 아니라 영화, 특수효과, 광고 등 다양한 미디어를 만들어 내는 것에 사용할 수 있다”고 유용성을 강조했다. 조 대표는 지난해 IT스타트업 행사인 ‘컴업2023’에서도 <애플경제>와 만나 “AI 학습을 발전시키기 위해선 풍부한 양질의 합성데이터가 필요하다. 이를 위해선 (생성AI로) 이미지와 미디어 데이터를 생성하고 변환하여 합성 데이터를 생성해야 한다”고 강조한 바 있다.

GAN 모델도 한계…‘디퓨전 모델’이 바람직

최근 정보통신기획평가원을 통해 공개한 ‘합성데이터 생성기술 동향’ 보고서에서도 그는 “생성자(generator)와 판별자(discriminator) 등 두 가지 컴포넌트로 구성되는 GAN 모델에 이어, 최근엔 스테이블 디퓨전 방식에 의한 이미지 생성과 변환, 합성 방식이 가장 적합한 합성데이터 생성 기술로 꼽히고 있다”고 강조하기도 했다.

그 중 기존 합성데이터 생성에 활용된 GAN 모델들은 장점에도 불구하고, 두 가지 컴포넌트를 학습시켜야 하기 때문에 학습이 불안정하다는게 단점이다. 특히 이미지의 콘텐츠가 복잡한 경우에는 학습이 되지 않는다. 또 “‘사람의 얼굴’처럼 (생김새나 특징 등) 데이터 사이에 정렬(alignment)이 잘 되는 경우에만 생성이 가능하다는 한계가 존재한다”는 것이다.

합성데이터를 만들어내는 다양한 생성 개념. (출처=젠젠에이아이)
합성데이터를 만들어내는 다양한 생성 개념. (출처=젠젠에이아이)

이에 새로운 대안으로 각광받고있는 방식이 ‘디퓨전 모델’(Diffusion models)이다. 이는 이미지가 주어졌을 때 여러 단계에 걸쳐 작은 ‘가우시안 노이즈(잡음)’를 더해가면서 최종적으로 완전한 노이즈를 얻는 방식이다. ‘가우시안 잡음’은 이미지를 압축, 전송하다보면 생기는 오차 내지 오류다. 즉 이미지를 계속 압축할수록 이미지가 줄어들게 되고, 이를 다시 복구하는 과정에서 또 다시 원래의 화소 값이 아닌, 오차가 생긴 값이 들어갈 수가 있다. 즉 ‘가우시안 노이즈’의 의미다.

디퓨전 모델은 그런 가우시안 노이즈를 단계별로 적용한 여러 이미지들을 일단 획득하는 것이다. 그런 다음 그런 노이즈로부터 다시 이미지를 복원하는 ‘디노이징(denoising)’을 거듭함으로써 결국 새로운 이미지를 얻는 방식이다.

그같은 디퓨전 모델 중에서도 최근 가장 유력한 기술은 ‘스테이블 디퓨전’(Stable Diffusion)이다. 이는 노이즈 제거로 이미지를 생성했던 기존 ‘디퓨전 모델’에서 한 걸음 나아가 이미지를 ‘오토인코더’에 통과시켜 크기가 작은 ‘잠재 벡터’(latent vector)로 만든다. 다시 벡터 상태에서 노이즈를 제거함으로써 더 정확하고 정밀하며 효율적인 이미지를 생성하는 것이다.

가장 이상적인 ‘스테이블 디퓨전 모델’ 3가지 유형

조 대표는 “스페이블 디퓨전 모델은 다시 개념적으로 크게 3가지로 구분할 수 있다.”고 소개했다. 그에 따르면 우선 ‘이미지 생성’ 기술이 있다. 이는 스테이블 디퓨전 기술과 유사한 방식으로 문자열이나 이미지 등의 조건을 입력, 기존에는 존재하지 않는 새로운 데이터를 만들어 내는 것이다. 또 ‘이미지 변환’ 기술도 있다. 이는 기존에 수집된 실제 데이터나, 생성된 합성 데이터를 두고 다양한 변수, 즉 날씨나 계절, 시간(주야간), 카메라 종류 등을 바꿔가며 새로운 데이터로 바꾸는 것이다.

이 외에 ‘이미지 합성’ 기술이 있다. 이는 이미지에 포함되지 않은 새로운 피사체를 배경과 조화롭게 추가, 삭제, 변경하는 기술이다. 이를 통해 데이터 편향이나 데이터 부족사태를 해결하기도 한다. 주어진 이미지에 피사체 합성을 하는 방법은 다양하다. 지금까지는 ‘이미지 조화’ 기술이 많이 사용되었다.

조 대표는 특히 “최근 생성형 AI를 이용한 기술들은 피사체를 있는 그대로 합성하지 않고 대략적인 힌트만 제공해 새로운 피사체를 생성하는 방식을 이용하기도 한다.”면서 “이러한 방법 중에 많이 알려진 모델로는 컨트롤넷(ControlNet)이 있는데, 이는 기존에 학습된 스테이블 디퓨전 모델을 활용해 다양한 조건에 따른 생성이 가능하게 모델을 수정할 수 있다.”고 덧붙였다.

저작권자 © 애플경제 무단전재 및 재배포 금지