데이터 중앙 서버 집중 대신, 개별 공정 및 스마트기기에서 학습
중앙 집중 따른 지연시간, 비용 절감 등 스마트 공정 합리화 기해
[애플경제 김향자 기자]AI를 접목한 스마트 공장을 구축하는 과정에서 새삼 ‘연합학습’ 기법이 주목받고 있다. 연합학습은 중앙에서 일괄적으로 데이터를 수집하는 대신, 각 공정별 내지 단말에서 수집된 데이터를 학습하고, 이를 토대로 알고리즘을 생성하는 것이다. 이는 구글에서 개발한 이후 가장 효율적인 AI학습방법으로 확산되고 있다. 특히 스마트 공장의 효율적인 알고리즘 구축을 위한 최적화된 방법으로 평가받고 있다.
최근 국내 전문가들도 특히 스마트 공장에 이를 도입하는 방안을 제시하며 관심을 보이고 있다. 최근 ‘엣지 컴퓨팅과 연합학습을 활용한 제조공정의 AI 데이터 분석 모델의 제안’이란 논문에서 그 실용화 방안과 효율성을 강조한 전익진 ㈜세이프코리아 AI기술연구소 소장의 이론 전개도 그 대표적인 사례로 꼽을 수 있다.
전 소장에 따르면 연합학습은 학습을 위해 분산된 로컬 데이터를 한곳으로 모으지 않고 다양한 디바이스나 공정 등에서 따로따로 데이터를 처리하는 기술이다. “다양한 엣지 단말에 적용할 수 있는 학습 모델이며, 특히 정보보호가 필요한 의료, 금융, 스마트 홈 등에서도 매우 유용하다”는 설명이다. 특히 엣지 컴퓨팅 기술이 발전하고, 동시에 대용량의 데이터가 지속적으로 증가하며 이를 수집․분석하는데 많은 비용과 시간이 걸리는 현실에서 그 대안을 특히 주목을 받고 있다
이를 원론적으로 보면 여러 데이터가 있는 개별 단말이나 소유자가 모두 머신러닝에 사용할 각자의 로컬 데이터를 비공개로 유지하며 함께 협력해 서로 공유하는 예측 모델을 훈련시키고 이용하는 것이다. 모든 데이터를 한곳에, 보통 데이터 센터에 모아야 하는 전통적인 머신러닝 방식과는 다르다. 그러면 사용자의 개인 정보 보호나 데이터 기밀 유지도 한층 강화된다. 다시 말해 학습 데이터를 한데 모으지 않고 협력적으로 수행하는 머신러닝 기술이다.
이는 기존의 머신러닝 기술이 지닌 한계를 극복하고, 컴퓨팅 자원 소모의 분산, 프라이버시 보호, 개인 맞춤형 학습 등을 실현할 수 있는 대안으로 주목받고 있다. 이에 구글은 물론, 애플, IBM 등의 거대 기업을 비롯해 많은 테크 기업에서 이를 실용화하고 있다. 국내에서도 네이버, 카카오S, KT 등 여러 기업이나 학계에서도 연구 개발과 함께 기술 전파에 힘쓰고 있다.
특히 여러 장치와 기관에 분산된 데이터를 중앙으로 수집하는 과정을 생략할 수 있다는 점에서 스마트 공장의 효율적 방안으로 떠오르고 있다. 앞서 전익진 소장은 “현재 대부분의 AI 모델은 raw 데이터(원초적 데이터)를 중앙으로 수집하는 과정이 반드시 포함되어야 하므로 데이터의 수집 및 전처리 과정은 전체 AI 모델 구축 과정의 80% 수준의 공수가 투입되는 작업이다”이라며 “특히 데이터의 수집 과정은 중소, 중견 기업에서 가장 많은 비용을 투입되는 과정으로 AI 모델을 구축하는데 큰 부담으로 작용하게 된다”고 스마트 공장의 애로를 진단했다.
이에 그는 “연합학습 기반의 AI 모델을 구축하면 단말에서 데이터를 분석한 결과만 중앙 서버에 전달되므로, 모든 데이터를 수집하는 비용과 시간을 큰 폭으로 줄이는 효과를 가질 것”이라고 강조했다. 그에 따르면 제조 환경에서 공정 손실 비용을 최소화하고 일정한 품질 수준을 유지할 수 있는 제조 자율실행 학습 모델이 대표적이다. 즉 “이는 각 공정별로 데이터를 수집하고 자율학습하는 개별 단말과, 그런 개별 단말에서 수행된 학습 결과를 수집하고 결과를 바탕으로 재학습하는 중앙 서버”로 구성되며 “스마트 공정이 이미 구축된 환경이라면 기존 단말을 최대한 활용할 수 있다”는 설명이다.
각 공정의 개별 단말에서 수행되는 자율실행학습 알고리즘에 의해 공정의 효율을 극대화하기 위해서는 각 공정별 패턴을 빠르게 인식할 수 있다. 그는 “최종적으로 수행된 개별 단말의 자율학습은 각 공정별로 수집된 데이터를 기준으로 학습, 분류, 예측의 순으로 진행된다.”고 예시했다. 이때 패턴 학습은 데이터 탐색, 수집, 변환 작업이 자동화되어야 하고, 이를 통해 최적의 신호를 찾는다. 이 경우 시행착오를 거듭하며, 데이터를 통해 최적의 패턴을 발견하는 강화학습에 의한 분석 알고리즘을 활용한다.
이같은 패턴학습을 토대로 새로운 데이터에 대한 패턴이 분류된다. 이에 따라 데이터의 생성 속도, 종류 등이 함께 고려되어 알고리즘이 완성된다. 이같은 패턴의 학습과 분류가 완료되면 최종적으로 예측 과정이 수행된다. 전 소장은 “공정 운영 상의 위험을 탐지하고 상황별 대처 내지 수행 방안을 제시한다”면서 “이를 통해 사전의 시뮬레이션 환경과 발생 가능한 환경의 시나리오를 자동으로 구축할 수 있는 알고리즘을 생성해내는 것”이라고 밝혔다.
이같은 연합학습은 “스마트 공장 등 엣지 컴퓨팅 환경에서 분산된 데이터의 활용 범위를 확대하는 기준으로 작용할 것”이라는게 전 소장의 설명이다. 그는 “나아가서 이는 스마트 기기, 사물인터넷, 엣지 컴퓨팅 등 디지털 기술의 발전에 따라 개별 기기의 활용 영역이 꾸준히 확대되고 있고, 기업 등에서 독립적으로 생산, 수집, 저장하는 데이터양이 급속히 증가하는 추세 속에 가장 효율적인 대안으로 부상하고 있다”고 결론지었다.
