모델 깊이와 너비 조율, 성능 확장 불구, 연산량을 줄여
CNN 기반 모바일넷, 트랜스포머 기반 이피션트넷, CNN+TF 기반 등
‘롱 레인지 디펜던시’ 기반의 맘바(Mamba), 타이탄 등 다양
‘인버트 리지듀얼’, ‘셀프 언텐션’, 상태 공간 모형 등 기법

'2024 AI엑스포코리아'에 출품한 AI경량화 전문업체 부스로서 본문과 직접 관련은 없음. (출처=애플경제)
'2024 AI엑스포코리아'에 출품한 AI경량화 전문업체 부스로서 본문과 직접 관련은 없음. (출처=애플경제)

[애플경제 전윤미 기자] 파운데이션 모델 등 대규모 AI는 한정된 자원이나 특화된 용도에서 성능을 구현할 수 있도록 모델 경량화가 필요하다. 단순히 모델의 성능을 높일 뿐 아니라, 최소한의 자원으로 최적의 성능을 낼 수 있어야 한다. 이에 딥러닝 네트워크 구조의 경량화 모델 기술이 날로 발달하고 있다.

최근엔 합성곱 신경망 (CNN) 기반 구조에서 트랜스포머, 그리고 연산 패러다임을 적용한 기술 등이 등장하고 있다. 그 중 많은 전문가들이 공인하고 있는 기술은 CNN 모델에 속하는 모바일넷(MobileNet)을 비롯해, ‘트랜스포머’ 기반의 이피션트넷(EfficientNet), 다이트(Deit), 양자의 장점을 취한 하이브리드 방식의 ‘모바일빗’(MobileViT), ‘롱 레인지 디펜던시’ 기반의 맘바(Mamba), 타이탄(Titans) 등이 있다. 최근엔 또 네트워크 가지치기(‘가지치기’,network pruning) 등 새로운 방식도 널리 쓰이고 있다.

모델 경량화는 특히 모바일 기기나 NPU와 같은 연산 자원이 제한된 환경에서는 효율적인 계산과 에너지 효율성이 핵심 요건이다. 이들 경량화 기술은 모델의 깊이와 너비를 조율하고, 성능을 확장하면서도 연산량을 줄이는데 역점을 두고 있다.

합성곱 신경망(CNN) 경량화 기술

그 중 ‘모바일넷’ 시리즈는 대표적인 합성곱 신경망(CNN) 경량화 모델에 속한다. 이는 모바일 디바이스 등 리소스가 제한된 환경에서 효율적인 계산을 위해 설계된 경량 심층 신경망이다.

최근엔 기존의 합성곱 연산 외에도 ‘깊이별 분리 합성곱’(Depth-wise separable convolution)을 구사하기도 한다. 이는 하나의 합성곱 연산을 두 단계로 나누어 처리함으로써 연산량을 대폭으로 줄이는 방식이다. 연산량을 줄이고 효울성을 높이는데 적합하다는 평가다.

일종의 압축된 정보 ‘필터’에 비유할 수 있는 ‘인버트 리지듀얼’(Inverted Residual) 구조를 통해 정보 손실을 줄이면서도 경량화 모델의 성능을 높이는 방법도 있다. 전문적 표현으로 ‘저차원의 압축된 표현을 입력’한 ‘선한 병목현상’으로 표현되기도 한다.

역시 ‘모바일넷’ 시리즈인 ‘모바일넷V3’도 널리 활용된다. 이는 NAS(신경망 구조 탐색, Neural Architecture Search)를 통해 최적의 네트워크 구조를 자동으로 탐색하는 방식이다. 가장 효율적으로 연산할 수 있는 ‘활성화 함수’를 적용, 실용성을 높이는 것이다.

‘이피션트넷’(EfficientNet)도 CNN 기반의 경량화 모델로 활성화되고 있다. 이 모델은 단순히 연산량을 줄이는데 그치지 않는다. 모델의 깊이, 너비, 해상도 간의 스케일링(규모) 비율을 동시에 고려하는 방법이다.

이를 위해 NAS를 통해 이피션트넷 ‘기본 모델’을 구축하고,정확도와 효율성을 동시에 최적화한다. 다음으로 확장 계수, 즉 깊이와 너비, 해상도 간의 최적 균형을 유지하는 값을 구한다. 모델의 규모와 성능을 증대시키는 ‘복합 확장’ 방식을 적용한다.

기존에는 깊이나 너비, 해상도 혹은 정확도 중에서 하나의 차원만 확장, 축소하는 NAS가 주를 이뤘다. 그러나 ‘이피션트넷’은 이처럼 세 가지 축을 균형 있게 조절함으로써, 똑같은 자원이라도 한층 성능을 낼 수 있도록 한 기술이다.

나아가서 ‘이피션트넷V1’은 그보다 더 적은, 최소한의 파라미터로 더 높은 성능을 내도록 한 것이다. 또한 ‘이피션트넷V2’는 학습 속도 뿐만 아니라 추론 속도까지 개선, 저사양 환경에 더욱 적합한 모델로 평가되고 있다.

CNN 경량화 모델들은 그러나 복잡한 문제를 처리할 경우 상대적으로 정확도가 낮다는 지적이 따른다. 이에 최근엔 ‘트랜스포머’ 기반 모델의 경량화가 더욱 활성화되고 있다. 그 중 ‘다이트’(DeiT)는 대규모 사전학습이 필요없는 방식이다. 대신 이미지넷 수준의 데이터만으로도 트랜스포머를 학습할 수 있게 한다.

특히 ‘지식 증류’(knowledge distillation)를 활용, 학습 효율을 높이면서 CNN과 비슷한 추론 속도를 보인다. 대규모 모델을 증류한 고농축 지식을 작은 모델을 학습할 때 이용하는 방식이다.

'2025 국제인공지능대전' 출품 업체로서 본문과 직접 관련은 없음. (출처=애플경제)
'2025 국제인공지능대전' 출품 업체로서 본문과 직접 관련은 없음. (출처=애플경제)

하이브리드 구조의 2가지 모델

이 밖에 소위 ‘하이브리드 구조’로 일컬어지는 ‘모바일빗’(MobileViT)이나 ‘타이니빗’(TinyViT) 등도 주목을 받고 있다. 이는 트랜스포머의 정확도나 표현력, 그리고 CNN의 효율성을 함께 기할 수 있기 때문이다.

그럼에도 여전히 트랜스포머의 연산량을 더욱 줄이기 위한 연구가 계속되었다. 그 방법으로 최근 등장한 것이 이른바 ‘리니어 트랜스포머’(Linear Transformer)다.

이는 기존 ‘셀프 언텐션’(Self-Attention) 함수의 연산 순서를 재구성한 것이다. 여기서 ‘어텐션’ 함수는 우선 특정한 ‘쿼리(Query)’를 두고, 모든 ‘키(Key)’와 유사도를 각각 구한다. 구해낸 유사도를 가중치로 삼아, 키와 맵핑되어있는 각각의 ‘값(Value)’에 반영해준다. 그 결과 유사도가 반영된 ‘값(Value)’을 모두 가중합한 결과를 구한다.

‘셀프 어텐션’은 ‘어텐션’ 기술을 바탕으로 문장 내의 각 단어가 다른 단어에 얼마나 상관성을 갖는지를 계산한다. 이를 통해 모델은 문맥을 이해하고, 단어 간의 관계를 파악하게 된다. 예를 들어 입력 문장 내의 단어들끼리 유사도를 구하면서 특정 단어가 문맥 속에서 어떤 의미를 갖는지를 파악하는 것이다.

다시 말해 ‘시퀀스’ 길이에 따른 계산 복잡도(문맥과 단어 파악의 복잡도)를 크게 감소시킨다. 그 과정에선 핵심 연산을 위해 소프트맥스(Softmax) 함수를 통해 커널 방식으로 변경하거나 저차원 공간에서 선형 근사를 적용한다. 소프트맥스 함수는 여러개의 값이 있을 때, 각 값이 상대적으로 얼마나 중요한지를 확률 분포로 나타내는 것이다. 이는 통해 긴 시퀀스에서도 빠른 추론을 가능하게 할 수 있다.

트랜스포머 대체 기술도 다수

또한 트랜스포머를 대체한 ‘롱 레인지 디펜던시’(‘긴 범위 의존성’, long-range dependency)도 활용된다. 이 역시 효율적인 연산이 가능한 모델이다. 대표적으로 맘바(Mamba)와 타이탄(Titans)가 있다.

‘맘바’는 상태 공간 모형(State Space Model: SSM)에 기반한 새로운 시계열 처리 프레임워크다. 즉, 트랜스포머보다 적은 연산량으로 ‘긴 범위의 의존성’을 학습할 수 있도록 설계된 것이다. 이는 또 순차적 처리와 병렬 처리를 동시에 지원하고, 긴 시퀀스에서 효율적인 추론이 가능하다.

역시 ‘롱 레인지 디펜던시’ 기반인 ‘타이탄’(Titans)도 주목을 받고 있다. 이는 기존 트랜스포머의 비효율적인 추론 방법을 개선하기 위해 ‘인간의 기억 체계’를 모방한 것이다. 단기 기억 모듈, 장기 기억 모듈, 지속적 기억 모듈로 구성, 지역 특성이나 ‘긴 범위의 의존성’을 효과적으로 저장할 수 있는 딥러닝 구조다. 이는 또한, 테스트 시점에 학습(test-time learning)함으로써 모델을 지속적으로 학습할 수도 있다. 그 만큼 메모리 자원의 소모를 줄임으로써 효율적인 추론이 가능하다.

저작권자 © 애플경제 무단전재 및 재배포 금지