GAN, 3차원 모형 3DMM 기술, 신경망 표현 ‘NeRF’ 기술로 영상 합성
딥페이크, 페이스스왑, 페이스쉬프, 페이스투페이스, 뉴럴텍스춰로 진화
영상 판별․탐지기술도 발달…“합성 이미지를 주파수 도메인으로 변환, 구분”

사진은 본문 기사와 직접 관련은 없음.
사진은 본문 기사와 직접 관련은 없음.

[애플경제 이보영 기자]안면 인식기술을 토대로 한 얼굴 영샹이나 합성 영상을 생성하거나, 진짜 여부를 탐지하는 기술도 날로 발달하고 있다. ‘코로나19’로 인해 원격, 비대면 화상회의가 늘어나면서, 특히 이런 기술은 가속도가 붙고 있다. 예를 들어 화상회의에서 자신의 사생활을 노출시키고 싶지 않을 경우엔 자신의 ID를 바꿔 익명으로 참여하거나, 합성 영상으로 대신하는 경우가 그런 사례다.

이 기술은 실제로 방송매체에서도 인간이 아닌 인공지능 아나운서를 출연시키는 수준으로 진화하고 있다. 물론 부작용도 있지만, 순기능도 많다. 합성영상 기술을 통해 오히려 유해한 영상을 식별하고 경계할 수 있게도 한다. 백승렬 울산과학기술원 조교수는 최근 정보통신기획평가원 등을 통해 공개한 논문에서 “특히 메타버스 기술에서 중요한 축을 맡은 영상 생성 및 합성 여부 탐지 기술에서 우리는 세계 최고 수준의 기술을 확보하고 있다”면서 실태를 전했다. 특히 영화와 콘텐츠 산업 등의 성장에도 큰 밑거름이 될 것이란 기대다.

빛의 속도로 발전하는 합성영상 기술

이같은 인공지능에 의한 영상기술은 합성영상을 생성하는 것은 물론, 가짜나 유해한 합성영상을 탐지하고 방지하는 수준까지 발전하고 있다. 우선 얼굴 영상을 생성하는 기법은 크게 GAN(생성적 대립 신경망) 기반의 기술과, 3차원 얼굴 모형인 3DMM(3D morphable model)기법, 신경망에 의한 NeRF(Neural Radiance Fields) 기반의 기법 등으로 크게 구분된다.

GAN은 서로 적대적인 생성모델과 판별모델이 경쟁하면서 실제와 가까운 영상이나 음성, 이미지 등을 만들어 내는 머신 러닝의 일종이다. 컴퓨터 프로그램이 특정 분야의 실제 데이터들을 학습하고 그 중 공통점을 추론, 조합하여 매우 정교한 위조품을 만들어 낼 수 있다.

그 과정에서 이용자의 얼굴과 닮은 얼굴 사진을 생성하기 위해 개인의 특징을 추출하는 ‘Latent Encoding’ 기술이 접목되고 있다. 또 GAN 기술로 생성된 얼굴 사진을 3D 애니메이션 캐릭터나 웹툰 캐릭터 얼굴로 변환해주는 ‘스타일 영상 생성 기술’도 활용되고 있다.

딥러닝 기술의 발전과 함께 2D이미지나 사진만으로 3차원 정보를 복원하는 기술도 크게 발전하고 있다. 특히 얼굴 영상을 3차원으로 복원하는 일은 3D 아바타, 게임 캐릭터 제작 등의 분야에서 수요가 증가하면서 기술 개발이 활발하게 이뤄지고 있다. 이 경우 특히 딥러닝 기반의 3DMM(3D Morphable Model) 복원 기술이 적용된다. 이는 GAN으로 스타일이 변환된 2차원 얼굴 영상을 3D 아바타로 변환하는데 쓰인다.

좀더 기술적으로 설명하면, 3DMM은 평균 얼굴 형상(S)을 기반으로 한 벡터의 미세한 변경으로 얼굴의 형상을 조정하게 된다. 3DMM 방식은 비교적 적은 수의 벡터만으로도 3차원 얼굴 형상을 표현할 수 있다. 실제로 3DMM의 파라미터를 추정하는 과정을 거치면 3차원 센싱 정보(입체적 정보) 없이도 얼굴 사진만으로 3차원 얼굴을 복원할 수 있다는 게 큰 장점이다.

​최근엔 특히 ‘Differentiable Renderer’를 활용하여 3DMM의 파라미터를 추정하는 기술들이 개발되고 있다. 실제로 엔비디아는 정적인 2D 이미지를 실물과 흡사한 색상이나 질감을 갖춘 3D이미지로 전환시킬 수 있는 기술인 ‘Differentiable Renderer’ 알고리즘을 갖춘 그래픽 카드를 출시하기도 했다. 이는 이른바 장면 파라미터(Scene Parameter)를 이용하여 2차원 영상을 생성함과 동시에, 이를 역으로 분석하는 인버스 렌더링(Inverse Rendering) 기능, 그리고 생성된 영상의 실물감을 나타내는 그라디언트(Gradient)도 제공한다. 이를 통해 2차원 영상으로부터 3D 파라미터를 추정할 수 있다. 즉 3차원 스캔 데이터가 없이도 3DMM 파라미터를 추정할 수 있는 딥러닝 모델을 생성할 수 있는 것이다.

앞서 백 교수는 메타버스의 핵심기술이라고 할 ‘NeRF(연속적인 신경 장면 표현, Neural Radiance Fields)’ 기반의 딥러닝 기법도 제시했다. 이는 “멀티뷰(Multiview)를 가지는 영상들 혹은 비디오 영상으로부터 기하 정보와 텍스처 정보를 복원하여 재랜더링(재가공) 하는 기술”이란 설명이다.

쉽게 말해 딥러닝을 통해 3D 공간의 색과 밀도를 자체적으로 학습하고, 그로부터 얻어낸 2D 이미지로부터 새로운 가상의 3D 공간을 복원해내는 기술이다. 특히 물체의 색상 이나 각도에 따라 달라지는 음영, 빛의 굴절과 반사를 생생하게 재현함으로써 실물과 가장 흡사한 영상을 만들어낸다. 그래서 NeRF 기술은 디지털 시대의 핵심 메타버스 기술 중 하나로 꼽히고 있다.

범죄 등에 쓰이는 합성영상 탐지기술도 발달

이같은 합성 영상기술은 물론 아직도 한계가 있지만 꾸준히 발전을 거듭하고 있다. 그런 가운데 정작 중요성이 더 커지고 있는 것은 유해하거나, 무분별하게 배포되고 있는 합성영상을 제대로 탐지할 수 있는 기술이다.

현재는 대체로 페이스 포렌식에 의한 합성 이미지와 원본 이미지를 학습 데이터로 활용하여 합성 여부를 학습하는 기법들이 많이 쓰인다. 그러나 이런 탐지 기술은 실제 이미지와 특정 생성 모델이 만든 생성 이미지를 구분하는 학습을 기반으로 동작하는 것이 단점이다. 즉, 학습에 활용된 생성 모델에 대해서만 높은 탐지 성능을 보이기 때문이다.

그럴 경우 딥페이크 영상을 범죄에 악용하는 사람들이 활용하는 생성 모델의 종류를 파악하는 것이 불가능하다는 지적이다. 또 “실시간으로 수많은 다양한 생성 모델이 만들어지고 있는 현실에서 합성 이미지 탐지를 위한 학습 데이터를 확보하는 것은 불가능하다”는 것이다.

이에 백 교수는 탐지의 대상이 되는 합성영상의 원리를 쉽게 설명하며 그 대안을 모색하고 있어 눈길을 끈다. 이에 따르면 합성영상은 우선 2장의 영상이 존재하는데, 하나가 ‘source’, 다른 하나는 ‘target’이 되며, ‘source’의 영상에 ‘target’ 영상의 사람을 바꾸는 기법이 딥페이크, 페이스스왑, 페이스쉬프터 기법이다. 그런 기교와 함께 ‘source’의 영상에 ‘target’ 영상의 ‘표정’을 바꾸는 기법, 즉 뉴럴 텍스춰(Neural Textures)나 페이스투페이스(Face2Face) 기술이 접목되는 것이 합성영상의 특징이다.

이에 따르면 또한 ‘Source’ 영상에 타인의 얼굴을 합성하는 방법은 얼굴의 눈, 코, 입이 아닌 ‘외곽’ 부분에서 합성 이미지의 특징이 나타난다. 특히 합성 이미지를 주파수 도메인으로 변환할 경우 진짜 영상과 차이점을 나타낸다는 설명이다. 즉, 이렇게 변환시켜 보면, ‘Source’ 영상에 타인의 표정을 합성하는 방법은 눈, 코, 입 부분이 원본에 비해 어색한 모습을 나타낸다. 그래서 합성영상을 감별 내지 탐지하기 위해 특정 영상에 대해 흔히 딥페이크, 페이스스왑, 페이스쉬프, 페이스투페이스, 뉴럴텍스춰 등 각기 다른 영상 생성 기법을 적용해보면, 탐지해낼 수 있다는 설명이다.

저작권자 © 애플경제 무단전재 및 재배포 금지