원시 데이터 공유않고, 업데이트된 모델 파라미터만 중앙서버에 전달
개인정보보호, 외부 유출 제한, 전체 데이터 일괄처리로 학습 효율 높여
비동기식 학습, 모델 수렴 가속화, 압축 기법으로 통신 오버헤드 최소화

사진은 '2021 국제인공지능대전' 모습으로 본문과 직접 관련은 없음.
사진은 '2021 국제인공지능대전' 모습으로 본문과 직접 관련은 없음.

[애플경제 박문석 기자]다양한 산업 분야에서 AI모델 구축을 위한 가장 효율적인 방법으로 연합학습이 새삼 주목받고 있다. 연합학습은 AI모델링을 위해 모델 학습을 수행하고 업데이트된 모델의 파라미터들만 중앙 서버에 전달하는 것이다. 즉 다양한 디바이스나, 기관에 분산된 온갖 원시 데이터를 직접 공유하지 않고, 데이터의 외부 유출을 제한하면서도 전체 데이터를 일괄처리 하는 기술이다.

이는 “여러 위치에 분산 저장된 데이터를 직접 공유하지 않고 서로 협력하며 인공지능 모델을 학습할 수 있는 분산형 학습 기법”이라는 전문가들의 설명이다. 다시 말해 개별 클라이언트에서 데이터를 집계하는 대신 모델 학습을 수행하고 업데이트된 모델의 파라미터들만 중앙 서버에 전달하도록 설계되었다. 중앙 서버에서는 대규모 클라이언트들로부터 학습된 로컬 모델 파라미터들을 집계하고 이를 평준화하여 글로벌 모델을 학습하는 방식이다.

에너지나 보건 의료 분야는 개인 데이터를 활용하여 AI모델링을 하는 경우가 많다. 이런 경우 연합학습 기법을 적용하면 개인 맞춤형 비즈니스 모델을 만들면서도 개인정보를 충분히 보호할 수 있다. 또한, 데이터의 소유권과 활용을 둘러싼 갈등이나 문제점도 해소할 수 있다는게 장점으로 꼽힌다.

이처럼 연합학습의 중요성과 효율성이 부각되는 가운데, 그 기술도 날로 발전하고 있다. 대표적으로 연합학습 구조별로 발생할 수 있는 네트워크 통신비용을 줄이기 위한 비동기식 연합학습 방식을 꼽을 수 있다. 즉, 규칙적인 시간 관계가 없이 랜덤(random)한 사물이나 이미지를 대상으로 마이닝을 하고, 이를 기반으로 한 프로그램 실행에서도 명령의 순서를 매기거나, 예측을 할 수 없는 방식이다. 이 밖에도 모델 수렴 가속화 기법, 압축 기법을 활용해 통신 오버헤드를 최소화하는 것 등과 같은 기술이 발달하고 있다.

특히 AI 모델링을 데이터 수집 과정에서 매우 중요한 Non-IID(independent and identically distributed)특성을 고려한 연합학습도 주목받고 있다. 이를 통해 학습 효율을 높이고 성능을 고도화할 수 있다. 이는 특히 “연합학습 기술의 고도화 및 네트워크 통신 오버헤드를 최소화하는데 유용하다”는 설명이다.

연합학습은 단적으로 말해 ‘중앙집중식 학습’이다. 이는 데이터 수집과정에서 개인 정보를 더 잘 보호할 수 있는 장점이 있다. 즉, 원시 데이터가 아니라, 학습된 모델만 중앙에서 처리되기 때문인데, 유럽에서 최근 제정된 일반 데이터 보호 규정(GDPR)의 ‘데이터 최소화 원칙’에도 부합한다. 글로벌 기준에도 적용된다는 얘기다. 이같은 연합 학습 구조는 대체로 서버-클라이언트, 순차 모델, Peer-to-Peer, 클러스터링 모델로 나누어 볼 수 있다. 대표적인 연합학습의 알고리즘은 FedSGD(Federated Stochastic Gradient Descent)와 FedAVG(Federated Averaging) 등이 있다.

분산형 데이터를 클라우드 서버에서 수집하고 이를 분석하기 위해서는 효율성, 분석 시간, 비용 측면에서 많은 제약이 따른다. 특히, 빅데이터를 사용하게 되면서 개인정보보호 문제가 부각되고 있다. 이러한 문제들을 해결하기 위해 연합학습의 효용성이 특히 주목받고 있다. 이는 스마트 기기, 사물인터넷, 엣지 컴퓨팅 등 디지털 기술이 발전함에 따라 더욱 효율적인 기술로 부상하고 있는 것이다.

특히 급증하는 데이터를 분산하여 수집하고, 저장, 관리하면서 그 필요성이 커지고 있다. 데이터를 보유하고 있는 다양한 디바이스나, 기관 등에서 독립적으로 데이터를 처리하여 데이터의 외부 유출을 제한하면서도 전체 데이터를 일괄처리 하는 기술이 필요하다. 이에 여러 위치에 분산 저장된 데이터를 직접 공유하지 않고도, 서로 협력하며 AI모델을 학습할 수 있는 분산형 학습 기법으로 각광받고 있는 것이다.

저작권자 © 애플경제 무단전재 및 재배포 금지