내부로부터의 데이터 유출 방지 위한 분산․병렬 모델 학습 기법
“기존의 기계 학습이나 재귀 신경망 탐지 모델보다 훨씬 우수”

엣지 관리를 위한 IT 엑스퍼트 API 이미지로서, 본문 기사와는 관련이 없음.(사진=슈나이더일렉트릭)
엣지 관리를 위한 IT 엑스퍼트 API 이미지로서, 본문 기사와는 관련이 없음.(사진=슈나이더일렉트릭)

[애플경제 이보영 기자] 내부자로 가장한 사이버 침해나, 심지어는 내부자에 의한 데이터 유출 등이 날로 빈번해지고 있다. 이를 사전에 탐지하고, 예방하기 위한 기술도 날로 발전하고 있다. 기존에는 기계학습 또는 그 한계를 보완한 재귀 신경망(Recurrent Neural Network) 기술 등에 의한 탐지 모델이 상용화되고 있다. 그러나 이 역시 취약점이 적지 않다보니, 최근에는 중앙집중이 아닌 분산의 장점을 최대한 살린 병렬 방식의 인공지능 모델 학습, 즉 연합학습(Federated learning)에 의한 모델 기법으로 진화하고 있다.

이에 전문가들은 연합학습 모델 기법에 의한 내부자 탐지 기술에 관한 연구를 본격화하고 있다. 유종민 ‘킹스 칼리지 런던’ 연구원의 ‘전사적 자원 관리 시스템에 관한 내부자 탐지 기술 동향’ 논문에 의하면 그러나 기계 학습 기반의 방법들은 태생적인 한계를 가지고 있다. “이는 대부분의 기계 학습 모델이 학습 데이터의 확률적 특성을 선형성을 띤다”고 지적한 유 연구원은 “선형성을 가진다는 것 것은 데이터 분포의 형태가 설명하기 쉬운 표준 정규 분포나 가우시안 분포를 띈다는 것을 의미한다.”고 했다.

다시 말해 이는 정형화된 행동 양태에 국한될 뿐, 임의롭고 예측 불가한 다양한 행위나 상황에 대해선 대응할 수 없다는 뜻이다. ‘딜로이트’나 ‘그랜드 뷰 리서치’, ‘피노미넌 인스티튜트’ 등의 분석기관과 각종 연구 자료를 기반으로 해당 논문을 작성한 유 연구원은 “그러므로 기업의 ERP 시스템으로부터 추출된 행위 데이터에서 어떤 정보가 유용한지 판단하고,

이러한 판단을 기반으로 유의미한 정보를 추출하는 특징 엔지니어링(Feature engineering)작업이 필요하다”고 전제했다. 그가 말하는 ‘특징 엔지니어링’ 작업은 주어진 데이터에서 어떤 부분이 유효한지를 이해하고 있어야만 가능한 것이란 얘기다. 즉 수많은 행위나 상황 중에서 유의미한 것들을 골라낼 수 있는 식별과 인지 능력인 셈이다. 정보통신기획평가원에도 게재된 이 논문에서 유 연구원은 “따라서 최근 복잡한 데이터에서 사람의 개입을 최소화 하면서, 이상 행위를 원활하게 탐지해내는 기술을 개발하기 위해 다양한 AI기반의 내부자 위협 탐지 기술이 개발되고 있다”고 전해 눈길을 끌고 있다.

그에 따르면 인공지능을 사용한 내부자 위협 탐지 방법들은 딥러닝, 즉 신경망 구조와 ‘비선형 활성함수’를 계층적으로 쌓아 놓은 심층 신경망(Deep Neural Network)을 접목한 것이다. 이는 탁월한 특징 학습 능력을 갖추고 있으며, 기존의 기계 학습에 의한 방법보다 훨씬 우수하다는 것이다. 특히 이를 위해 많이 사용되는 모델은 재귀 신경망 구조다. 이는 데이터의 시계열(Time-series) 특성을 무시하는 일반적인 신경망 구조와는 달리, 데이터의 시계열 특성을 고려하는 방식이다.

그래서 “데이터로부터의 특징 추출과 모델 구축을 하나의 모델로 가능하게 하는 종단 학습 기법(End-to-End learning)을 통해 사람의 개입을 최소화하면서도 높은 성능의 내부자 이상 행위를 탐지해내는 수준”이라는 설명이다. 그러나 이것 역시 충분한 데이터를 수집하고, 이를 다양한 기업 환경에 적합한 미세조정(fine-tuning)의 과정을 거쳐야 하는 등 한계가 있다는 지적이다. 이에 결국 “내부자 탐지 기술은 이제 ‘연합학습에 의한 모델링’ 방식으로 진화하고 있다”는 설명이다.

연합학습 모델링은 한 마디로 분산의 가치를 최대한 살리되, 병렬 방식을 첨가하는 AI모델 학습방법이다. 즉 중앙이 아닌, 로컬 서버 노드에서 학습된 인공지능 모델의 학습 매개변수(Parameter)를 중앙 서버에 일단 전송한다. 그런 다음 로컬 서버들에서 전송된 모델들을 다시 종합하여 대표 모델을 생성한 후, 이를 원래의 로컬 서버로 또 다시 전송하는 방식이다. ‘병렬’적인 피드백 기법인 셈이다. 유 연구원은 “이는 데이터의 중앙 집중적 수집이 필요없이 인공지능 모델을 학습 할 수 있다는게 장점”이라며 “연합 학습 기술이 상용화되면 기계학습 기반이나 신경망 기반의 기술적 한계를 극복하고, 거의 완벽에 가까운 내부자 위협 탐지 시스템을 개발할 수 있을 것”이라고 기대했다.

저작권자 © 애플경제 무단전재 및 재배포 금지