(클로즈업) AI는 어떤 원리로 ‘창의성’을 발휘하나?
AI 창의성의 ‘비밀’ 규명 활발, 과학계 “기존 ‘확산모델’론 설명 불가” 이미지의 ‘국소적’ 요소, 입력 이미지 원리 적용 ‘등가성’ 등이 핵심 ‘확산모델의 역설’ 주목, “디지털 노이즈 변환, 조립한다는 해석은 부정확” “국소성·등가성 최적화 기능뿐인 ‘등가국소점수(ELS)머신’이 해답” 주장도
[애플경제 김홍기 기자] AI에게 진정한 ‘창의성’이 과연 있을까. 있다면 기계가 창의력을 발휘할 수 있는 비밀은 무엇일까. 이에 대한 그간 숱한 과학자와 연구자들, 특히 머신러닝이나 강화학습 관련 연구원들은 그 본질적 원리를 캐기 위해 많은 연구와 노력을 기울여왔다.
아직 정확하진 않지만, 지금까지 대략적인 원리는 어느 정도 파악하고 있다. 일단 비지도학습으로 학습, 새로운 데이터를 생성하는 ‘확산모델’이 적용되긴 한다. 그러나 그것만으론 부족하다. 국소적 요소의 조합과, 입력된 이미지와 같은 원리를 새로 생성하는 이미지에도 동일한 변화를 적용하는 변환 등가성(translational equivariance) 등이 복합적으로 적용된 것으로 보고 있다. 마치 예술가나 작가를 통째로 MRI와 같은 분석기기에 넣고 그 창조적 재능의 원리를 규명해내는 것과 같은 노력을 이어왔다.
확산모델 ‘디노이즈’ 이론은 창의성 규명 불가
‘확산 모델’ 원리대로라면 새로운 이미지를 생성하기 위해 ‘노이즈’를 제거해가는 방식이 진행된다. 이미지를 ‘디지털 노이즈’(비정형, 불규칙한 픽셀 모음)로 변환한 다음 다시 조립하는 것이다. 그러나 이런 ‘조립’ 방식은 점차 설득력을 잃고 있다. 대신에 ‘국소성’과 ‘등가성’이 확산모델의 한계를 극복하며 ‘창의성’의 원리를 제대로 진술하는 기술로 확정되는 분위기다.
‘디노이즈’ 과정의 한계, 즉 확산 모델이 이미지의 완벽한 복제본을 생성하지 못하는 기술적 원인을 규명한 것이다. 다만 이 단계에선 아직 이를(국소성, 등가성을) 창의성과 연관시키지 않았다. 창의성은 그 보다 훨씬 더 고차원적인 현상으로 여겨졌기 때문이다.
특히 생성AI가 출현하면서 많은 연구자들은 AI 창의성의 숨겨진 요소를 밝혀내는데 몰두했다. 미국 스탠포드대, 파리고등사범학교 등을 비롯한 과학계는 AI의 ‘이미지 생성기’에 특히 주목했다. 이는 애초 학습 데이터를 모방하도록 설계되었다. 그렇다면 창의성은 어디에서 나오는 걸까? 최근 연구에 따르면 창의성은 “‘이미지 생성기’의 구조적이며 불가피한 부산물”이란 결론도 등장했다.
특히 오랫동안 연구자들을 당혹스럽게 했던 또 다른 놀라움은 ‘알고리즘’이다. 정확히는 ‘알거리즘’이 지닌 독특한 종류의 창의성이다. 이에 트래킹AI, 킷그루.넷, 퀀터매거진 등 관련 전문매체나 전문가들도 같은 궁금증을 안고, ‘창의성의 실체’를 규명하기 위한 노력을 기울여왔다.
일단 달-리(DALL·E)나 이메진(Imagen), 스테이블 디퓨전 등과 같은 이미지 생성 도구의 핵심으로 ‘확산 모델’에 주목했다. 기존 이미지 생성기들은 일단 ‘확산 모델’을 통해 훈련된 이미지의 복사본을 생성하도록 설계되어있다. 그러나 겉으로 보면, 이미지 요소들을 혼합, 새로운 것을 만들어내는 즉흥적 작업인 것처럼 보인다. 그럼에도 “단순히 무의미한 색상 덩어리가 아니라 의미론적 의미를 가진 일관된 이미지를 만들어내는 것”이란 정의도 추출했다.
암기, 모방과는 차원이 다른 ‘확산모델의 역설’
이를 두고 ‘확산 모델의 역설’이란 주장도 있다. 파리 고등사범학교의 AI 연구자이자 물리학자인 줄리오 비롤리는 ‘퀀터매거진’에 “확산 모델이 완벽하게 작동한다면 그냥 암기해서 모방하면 된다”면서 “그러나 사실은 그렇지 않다. 전혀 다른 새로운 샘플을 생성할 수 있다”고 기존 ‘확산 모델’의 한계를 지적했다.
‘확산 모델’ 원리대로라면 새로운 이미지를 생성하기 위해 ‘노이즈’를 제거해가는 방식이 진행된다. 이미지를 ‘디지털 노이즈’(비정형, 불규칙한 픽셀 모음)로 변환한 다음 다시 조립하는 것이다. 마치 그림을 파쇄기에 넣어 고운 먼지만 남을 때까지 반복해서 파쇄한 후, 조각들을 다시 맞춰 붙이는 것과 같다. 먼지를 다시 모으고 뭉치고 조립해서 새로운 이미지를 만드는 식이다. 그러나 지난 수 년 동안 연구자들은 또 다른 의문을 제기해 왔다. 즉, “모델이 단순히 (조각을) 재조립된 결과라면, 어떻게 (본래 조각과는 특성이 다른) 새로운 것이 등장할 수 있을까?”라는 물음이다. 이는 파쇄된 그림을 완전히 새로운 예술 작품으로 재조립하는 것과 같다.
이에 일부 물리학자들은 놀라운 주장을 펼쳤다. 다름 아닌 ‘디노이즈’(노이즈 제거) 과정 자체가 갖는 기술적 결함이 확산 모델을 뛰어넘는 창의성으로 이어진다는 것다. 실제로 ‘2025년 국제 머신러닝 컨퍼런스’에선 기존과 달리 ‘훈련된 확산 모델’의 수학적 모델을 통한 해명이 선을 보였다.
이에 따르면 이른바 ‘창의성’은 실제로는 ‘결정론적 과정, 즉 모델 구조의 직접적이고 불가피한 결과임을 보여주었다. 인과론적 조합이나 순차적 생성이 아닌, 마치 돌연변이를 연상케하는 직관적 결과로 설명될 만하다. 이를 두고 당시 컨퍼런스에선 “확산 모델의 블랙박스를 밝혀낸 것”이라고 흥분하기도 했다.
당시 네덜란드 라드바우드 대학교의 컴퓨터 과학자 루카 암브로조니는 언론 인터뷰에서 “이런 새로운 연구는 미래 AI는 물론, 인간의 창의성에 대한 우리의 이해에 큰 영향을 미칠 수 있다”고 높이 평가했다.
스탠퍼드 대학교에서 응용 물리학을 전공하는 대학원생이자 해당 논문의 주저자였던 메이슨 캠은 오랫동안 형태의 생성, 즉 생명체가 스스로 조립되는 과정을 규명하는데 정열을 쏟았다. 인간과 다른 동물의 배아 발달을 이해하기 위해 20세기 수학자 앨런 튜링의 이름을 딴 ‘튜링 패턴’이라고 알려진 것을 이용하기도 했다. 이는 ‘세포’ 집단이 어떻게 스스로를 특정 기관과 사지로 ‘조직화’하는지를 설명한다.
세포 ‘조직화’ 해명 위해 ‘튜링 패턴’도 동원
‘튜링 패턴’이 특히 중요했던 것은 이러한 조정이 모두 ‘국소’(국부) 수준에서 이루어진다는 점이다. 수 조 개나 되는 세포를 총감독하고, 모든 세포가 최종 신체 설계에 부합하는지를 한눈에 식별하는 총체적 매개체란 애초 존재하지 않는다. 다시 말해, 개별 세포들이 자신이 기반이 되어 완성될 총체적 청사진을 가지고 있지 않다는 사실이다. 개별 세포는 전체의 속성과는 무관하다는 뜻이기도 하다.
이들 개별세포들은 (총체적 규정이나 질서는 없고) 단지 이웃 세포들의 신호에 즉각 ‘반응’한 결과로서 행동을 취하고 수정을 할 뿐이다. 이런 ‘상향식’ 시스템은 원활하게 작동하지만, 때로 ‘손가락이 하나 더 추가된 손’이 생기는 것처럼 (돌연변이와 유사한) 문제가 발생하기도 한다.
처음 AI가 생성한 최초의 이미지들이 온라인에 등장하기 시작했을 때, 많은 이미지들이 마치 ‘초현실주의’적인 괴이한 그림으로 보였다. 앞서 스탠포드대의 캄은 이러한 이미지들에 대해 ‘형태발생론’으로 설명했다. 즉 “(국소적 요소의 조합인) 상향식 시스템에서 예상했던 실패작 같은 느낌이었다.”는 것이다.
이에 정통한 AI 연구원들에 의하면 당시 ‘확산 모델’이 이미지를 생성할 때, 몇 가지 기술적 ‘지름길’을 취한다는 것을 간파했다.
첫 번째는 국소성이다. 즉, 한 번에 하나의 픽셀 그룹이나 ‘패치’에만 주의를 기울인다는 사실이다. 두 번째는 ‘변환 등가성’이다. 예를 들어 입력 이미지를 어느 방향으로든 몇 픽셀만 이동하면, 시스템이 이를 자동으로 조정해 생성하는 이미지에도 (입력 이미지와) 동일한 변화를 적용한다. 이같은 원리의 ‘변환 등가성’은 모델이 일관된 구조를 유지하도록 한다. 이 특징이 없으면 사실적인 이미지를 생성하기가 훨씬 더 어렵다.
이러한 특징 덕분에 ‘확산 모델’은 특정 패치가 최종 이미지에서 어디에 (어떤 모양으로) 위치할 것인가와는 전혀 무관하다. 대신 한 번에 하나의 패치만 생성하는 데 집중한 다음, ‘점수 함수’(score function)라는 수학적 모델을 사용, 자동으로 적절한 위치에 배치한다. ‘점수 함수’는 디지털 시대의 튜링 패턴, 즉 ‘디지털 튜링 패턴’이라고 할 수 있다.
결국 이를 통해 ‘국소성’과 ‘등가성’이 확산모델의 한계를 극복하게 한 기술로 확정했다. 즉 ‘디노이즈’ 과정 한계, 즉 확산 모델이 이미지의 완벽한 복제본을 생성하지 못하는 기술적 원인을 규명한 것이다. 다만 이 단계에선 아직 이를(국소성, 등가성을) 창의성과 연관시키지 않았다. 창의성은 그 보다 훨씬 더 고차원적인 현상으로 여겨졌기 때문이다.
‘등가국소점수(ELS) 머신’으로 노이즈 제거 이미지 분석
이런 연구가 스탠포드나 런던, 파리 등에서 한창 진행되던 준 오픈AI가 챗GPT가 출시되었다. 이에 생성 AI에 대한 관심과 함께 ‘창의성’의 실체에 대한 연구도 한층 속도를 내기 시작했다. AI기술 개발자들이 더욱 강력한 AI모델을 개발, 구축하는 동안, 많은 과학자들은 이러한 시스템의 내부 작동 방식을 이해하는 데 매달렸다. 그 결과 이들은 ‘확산 모델’의 창의성이 아키텍처의 결과라는 점을 발견했다. 즉, 전체 구조와는 별개의 국소성, 등가성 덕분이란 뜻이기도 하다.
스팬포드대의 캄브도 결국 ‘국소성’과 ‘등가성’이 창의성으로 이어진다는 가설을 세웠다. 이는 다시 흥미로운 실험적 가능성을 제기했다. 만약 ‘국소성’과 ‘등가성’을 최적화하는 것 외에는 아무것도 하지 않는 시스템을 고안할 수 있다면 어떨까.
스탠포드의 캄 등은 이처럼 국소성과 등가성을 최적화하는 기능뿐인 시스템을 ‘등가 국소 점수(ELS) 머신’이라고 이름 붙였다. 그렇다고 이는 종래의 훈련된 ‘확산 모델’은 아니다. “단지 ‘국소성’과 ‘등가성’의 메커니즘에만 기반해 노이즈가 제거된 이미지의 구성을 분석적으로 예측할 수 있는 일련의 ‘방정식’”이란 설명이다. 이를 활용, 이들은 ‘디지털 노이즈’로 변환된 일련의 이미지를 가져와, 앞서 ‘ELS 머신’과, 딥러닝의 ‘ResNet’이나 ‘UNets’ 등을 포함한 여러 강력한 확산 모델에 적용했다.
이를 두고 컴퓨터 과학자 론 로드블룸은 ‘퀀터매거진’에 “마치 신경과학자들이 인간 예술가 그룹을 MRI 기계에 넣고 그들의 창의성 뒤에 숨겨진 공통적인 신경 메커니즘을 발견한 것과 같다”고 높이 평가했다. 실제로 그런 실험의 결과는 충격적이었다. 등가성과 국소성의 원리를 결합한 ‘ELS 머신’은 ‘훈련된 확산 모델’의 출력과 평균 90%의 정확도로 완벽하게 일치했다. 이는 “머신 러닝에서는 전례가 없는 것”이란 평가다.
이 결과는 또 스탠포드 연구원 칸의 가설을 뒷받침하는 것으로 보인다. 즉 “‘국소성’을 부여하는 순간, ‘창의성’은 자동적으로 발휘되어 (기존) 역학(원리)에서 완전히, 그리고 자연스럽게 벗어났다.”는 것이다.
또한 ‘노이즈’ 제거 과정에서 그간 확산 모델의 효능을 제한해온 메커니즘이 오히려 모델의 창의성을 가능하게 했음을 실증했다. 즉 개별 패치들이 최종 결과물의 어디에 어떤 속성으로 조합되든 상관없이 개별 패치 자체에 집중하도록 강요하는 메커니즘이 그것이다.
앞서 비유했듯이, 확산 모델에서 관찰되는 과도한 손가락(여섯개 돌연변이) 현상 역시 그런 메커니즘의 결과다. 즉, 모델이 더 넓은 맥락을 헤아릴 것 없이 픽셀의 국소 패치를 생성하는 데 지나치게 집착한 결과였다는 해석이다.
여전히 많은 부분이 ‘미스터리’로 남아
그럼에도 불구하고, 이처럼 확산 모델에서 창의성의 메커니즘을 규명한 연구와는 별개로 여전히 많은 부분이 미스터리로 남아 있다.
그렇다면 확산 모델의 ‘창의성’은 애초 ‘노이즈’ 제거 과정 자체의 역설적인 부산물로 간주될 수 있다. 최근에 와서야 이를 수학적으로 공식화하고, 전례 없는 정확도로 예측할 수 있음을 실증할 수 있게 된 것이다.
이런 신경과학적 연구는 결국은 ‘인간 정신의 블랙박스’에 대한 통찰력을 제공할 수도 있다는 기대다. 조지아 공과대학교와 IBM 연구소의 머신러닝 연구원들도 “인간과 AI의 창의성은 그렇게 다르지 않을 수도 있다”고까지 했다.
이들에 따르면 인간은 경험, 꿈, 보고 듣고 바라는 것을 바탕으로 사물을 ‘조립’한다. AI는 자신이 본 것과, 수행하도록 요청받은 것에서 구성 요소를 조립할 뿐이다. 이러한 관점에 따르면 인간과, 인공의 창의성은 근본적으로 세상에 대한 불완전한 이해에 뿌리를 두고 있다. 즉, 자신이 본것만을 볼뿐, ‘보이지 않은 것’이나 ‘보지 않은 것’은 보지 않는다는 얘기다. 그럼에도 ‘보지 못한’ 지식의 공백을 메우기 위해 애쓰는가 하면, 때론 새롭고 가치 있는 무언가를 만들어낸다. 이것이 바로 ‘창의성’이라고 부르는 것이다.