데이터 규제 추세 속, ‘연합학습’ 부상

개인정보나 사내기밀 침해 우려없이 다양한 기업․기관 데이터 공유 중앙서버에서 데이터 아닌 로컬모델 수집 후 최종 모델링 반복 ‘피드백’ 의료와 공공서비스, 금융, 제조업, 교통 등 다양한 분야로 확산

2023-06-12     전윤미 기자
'2023 AI엑스포코리아'에 출품한 Ai솔루션 업체의 제품 개념도로서 본문 기사와는 직접 관련이 없음.

[애플경제 전윤미 기자] 데이터를 보유한 기업이나 조직이 각자 AI모델을 만들고, 이를 다같이 공유하는 연합학습 방식이 보편화되고 있다. 그러면 다시 각자가 성능을 향상시킨 후 더욱 고도화된 AI를 개발, 공유하는 식의 피드백을 반복한다. 의료와 공공서비스, 금융, 제조업, 교통 등 다양한 분야에서 이는 활성화되고 있다. 개별 조직이나 기업의 데이터를 특정 서버로 통합하는 것이 현실적으로 불가능한데서 나온 AI모델링 방법이다.

데이터 침해없이 각 조직 간 협업 가능

다시 말해 분산된 기업이나 조직의 데이터를 중앙 데이터센터로 이동, 통합한 후 학습하는 것이 아니라, 참여 기업이나 조직 간의 협업을 통해 모델을 공유하며 최종 AI를 개발하는 방식을 반복하는 것이다. 한국지능정보사회진흥원 AI·미래전략센터 우상근 책임연구원은 “데이터의 이동이 없고, 학습 중인 AI 모델을 공유하며 협력하기 때문에 개인정보가 포함된 기관 간 협업이 가능하고, 내부정보 자체가 자산인 기업 간에도 협업을 할 수 있다”고 장점을 강조했다.

그러면선 우 책임연구원은 최근 ‘AI리포트’를 통해 연합학습 모델링을 위한 피드백 과정을 설명하고 있다. 이에 따르면 △(특정 기업이나 기관이) 서버에서 보유한 데이터로 학습하여 기본적인 모델을 생성하고, △ 생성된 기본 모델을 여러 클라이언트에게 배포한다.

그런 다음에 다시 △클라이언트는 보유한 데이터를 활용하여 모델을 업데이트하고, △업데이트된 모델의 매개변수 값을 서버로 전송하면, △클라이언트로부터 전달받은 매개변수 값을 통해 서버는 새롭게 모델을 업데이트하게 된다. 그렇게 △서버는 업데이트된 모델을 클라이언트에게 다시 전송하는 방식을 반복하게 되는 것이다.

연합학습 종류(출처=한국지능정보사회진흥원)

‘코로나19 진단’ 위한 AI모델링에 적용

그 대표적인 사례로 ‘CT 이미지를 사용한 코로나19 진단’을 위한 AI모델을 개발한 경우가 있다. 서로 다른 병원에서 보유하고 있는 데이터를 연합학습을 활용, AI 모델을 개발한 것이다. 블록체인 기술까지 접목, 코로나19 증상에 대한 최신정보를 공유함으로써 일개 병원에서 예측한 결과보다 더욱 높은 정확도를 기할 수 있었다.

좀더 구체적으로 보면, ‘코로나19’ 진단의 정확성을 높이기 위해 우선 개별 병원들의 CT이미지를 연합학습을 통해 학습, 진단 모델을 구축했다. 이때 병원마다 서로 다른 종류의 CT스캐너로부터 수집한 데이터 이질성이 문제가 되었고, 이를 해결하기 위해 데이터 정규화 기술을 활용했다.

특히 블록체인 기술을 활용하여 최초 ‘글로벌 모델’을 학습, 이를 각 병원에 전송했다. 이를 전달받은 각 병원은 다시 자체적으로 보유한 데이터를 활용, ‘로컬 학습’을 진행하며 모델을 업로드했다. 다시 중앙서버에서 각 병원이 구축한 개별 모델들을 통합하여 새롭게 향상된 ‘글로벌 모델’을 구축한 것이다.

다른 다양한 의학적 용도에도 연합학습 모델링이 적용되었다. 대표적으로 △‘코로나19’ 환자의 산소요구량 예측이나, △유방조영술 평가·예측 모델 성능 개선, △신약 개발 가속화 프로젝트, △광혈류 측정(PPG) 센서를 활용한 심장역학 연구와 진단, △뇌졸중 예방을 위한 연합예측 모델링 등에도 적용되었다. 또 △전자건강기록(EHR)을 활용한 약물 부작용 예측, △전자건강기록(EHR) 데이터를 활용한 환자 사망률 예측, △글로벌 공동 악성 뇌종양 식별 프로젝트, △모바일 기기를 활용한 코로나19 등 개인 건강 진단 등에도 연합학습 기법이 적용되었다.

'코로나'를 진단하기 위한 연합학습 모델링 개념도. (한국지능정보사회진흥원)

대기질 측정 모델, 자율주행 등 교통․모빌리티로 확산

이 밖에 공공서비스 분야에서도 정찰용 무인항공기(UAV)에 의해 측정한 대기품질 데이터를 개인정보 침해 없이 연합학습에 의해 모델링한 해외 사례도 있다. 특히 유럽은 GDPR로 인해 기관 간에 사용자 데이터를 직접 공유할 수 없다.

이를 해결하기 위해 여러 지역의 상공에서 촬영한 개별 UAV가 연합학습의 클라이언트 역할을 하도록 했다. 이때 개별 UAV는 원본 데이터를 공개할 필요 없이 각 지역에 대한 대기질 지수를 모니터링하고, 이를 로컬 모델로 구축한다. 그런 다음 이를 중앙서버에 전송하고, ‘글로벌 모델’을 생성하며 이를 시각화하여 지역별 대기질을 예측하는 최종 모델을 구축하는 것이다.

이외에도 연합학습을 통해 교통 혼잡도 예측이나, 기상정보 예측 협력 시스템, 전기차 네트워크 에너지 수요, 스마트그리드 시스템, 수도 사용량, 전력 사용자 소비특성, 홍수 예측 등을 위한 모델링을 구축할 수 있다.

이는 모빌리티 분야에서도 마찬가지다. 자율주행 초저지연(URLLC) 환경을 구축하기 위해 데이터를 직접 이동하는 대신, 모델의 가중치만 이동하여 연합학습을 하도록 한다. 그러면 자율주행 내 초저지연(URLLC) 환경을 구축하는 프레임워크를 구축할 수 있다.

같은 방식으로 P2P 기반 차량간 자율주행 데이터 공유나, 디바이스간 무선 통신을 활용한 도로 내 보행자 정보 확인, 차량 운전자 졸음 감지, 자동차 스마트 방향지시등을 예측하는 최종 모델을 구축할 수 있는 것이다.

금융거래 이사을 탐지하기 위한 연합학습 모델링 개념도. (한국지능정보사회진흥원)

금융거래, 생산관리 의사결정 등에도 적용

이는 또한 금융거래 이상징후를 탐지하는데도 유용하다. 즉, “연합학습을 활용하여 보이스피싱, 대출·보험 사기 등 신규 금융거래에서 발생한 이상 징후를 탐지하는 시스템을 구축할 수 있다”는 것이다.

즉, 개별 은행이 가지고 있는 로컬 데이터셋을 활용하여 로컬 모델을 구축하고, 다시 중앙서버에서 로컬 모델을 활용하여 글로벌 모델을 구축한다. 그런 다음 중앙서버와 은행 간 업데이트 모델 공유를 통한 이상거래를 탐지하는 것이다.

이같은 연합학습을 통해 금융기관 대출 위험도를 예측하고, 개인데이터 이동 없이 오픈뱅킹 시스템을 구축할 수 있다. 또 보험 계약 위험 등 리스크 탐지시스템도 구축할 수 있다.

또한 제조분야에선 생산관리 의사결정 체계를 과학화하는데도 연합학습이 유용하다. 즉, 스마트공장에서 연합학습을 통해 데이터를 자동으로 수집․분석, 공장 내 의사결정 체계를 과학화할 수 있도록 스마트 제조 시스템을 구축할 수 있다. 이는 각 디바이스에서 데이터를 처리하므로 중앙집중형보다 효율성이 높다.

이같은 방식으로 △제품(USB메모리) 생산 모니터링과 품질관리, △반도체 레이저 수명 예측, △지능형 로봇의 물체 파지 개선 등을 도모할 수 있다.

이같은 연합학습은 기관 간 협업을 통해 AI 모델을 개발하고, 성능을 향상하는 것이므로 각 기관들이 신뢰할 수 있는 대표 기관이나 플랫폼 역할이 중요하다.

우 책임연구원은 “그래서 연합학습 운영 주체가 최초 모델의 골격을 선정하고, 각 기관에서 학습 중인 모델의 매개변수 값을 수신·집계한 후 각 기관에게 공정하게 재분배하는 역할을 담당하게 된다”면서 “또한 연합학습을 할때 특정 기관에서 보유한 데이터가 최종 모델의 성능을 저해할 수도 있으므로, 성능에 대한 ‘감사’역할도 필요하다”며 대표적인 플랫폼이 있어야 함을 강조했다.