데이터 변환, 분산화 소프트웨어, 신뢰할 만한 환경 하드웨어
‘동형암호 기술’, ‘재현 데이터’, ‘차분 프라이버시’, ‘다자간 컴퓨팅’
‘영지식 증명’, ‘연합학습’, ‘기밀 컴퓨팅’ 등

[애플경제 이보영 기자] 데이터 경제가 도래하면서 개인정보가 무한 노출되고 있다. 이에 최근엔 개인정보를 보호하기 위한, 이른바 PEC(Privacy-Enhancing Computation)기술이 새로운 뉴테크의 영역으로 주목을 받고 있다. 앞서 글로벌 시장분석기관인 ‘가트너’는 PEC에 대해 3가지 개념으로 정리한 바 있다. 즉 △데이터를 분석하기 전에 미리 데이터와 알고리즘 자체를 변환하는 기술, △분산화된 방식으로 로컬에서 데이터와 알고리즘을 처리 및 분석하는 기술, 그리고 △하드웨어 단계에서 안전한 신뢰를 보장하는 환경을 제공하는 기술이다.

정보통신정책연구원의 이경남 부연구위원이 이에 관해 최근 펴낸 동향 보고서에서도 같은 개념을 인용하고 있다. 이에 따르면 PEC 기술은 크게 △데이터 변환 △분산화된 방식으로 데이터를 처리, 분석하는 소프트웨어 △신뢰할만한 환경으로서의 하드웨어로 구분하고 있다.

그 중 ‘데이터 변환’은 즉 “데이터 분석 이전 단계에서 데이터 및 알고리즘 자체를 변환하여 원본 데이터를 보호하기 위한 기술”로 정의된다. ‘코리아크레딧뷰로’(KCB)에 따르면 이를 위해 동형 암호 기법을 쓰기도 한다. 즉 이는 “암호화 상태에서 데이터를 결합하고 연산‧분석 등이 가능한 차세대 수학 기법으로 데이터를 추출하는 것”이다. 또 가명처리나, 민감한 데이터를 공유하거나 결합하는 것에도 사용된다.

‘이글루시큐리티’에 따르면 또 이런 동형암호 기술은 더욱 발달하고 있다. 특히 예전과는 달리 데이터 처리 타입이 대용량 데이터 처리를 지원하는 형태로 발전하면서, 원본 데이터 처리 속도와 비슷한 속도를 달성하기 위한 연구가 진행되고 있다는 소식도 있다. 그렇게 될 경우 암호화된 탐색이나, 데이터 분석, ML 모델 훈련, 다자간 컴퓨팅, 무단 복호화 등의 위협 요인에 대항, 안전하게 데이터를 보관할 수 있게 된다.

마이크로소프트의 ‘오픈 소스 SEAL’이나, IBM의 MacOS & iOS 버전 동형암호 툴킷 등이 그런 사례다. 또 국내에서도 국민연금공단이나 코리아크레딧뷰로에서 세계 최초로 234만명의 신용데이터 분석에 동형암호 기술을 활용하는 개가를 올리기도 했다

또 가트너에 따르면 ‘재현데이터’ 즉, 실제 데이터로부터 엄격한 샘플링과 의미적 접근, 시뮬레이션 시나리오 등 다양한 방법론을 통해 인공적으로 데이터를 생성하는 기술도 등장했다. 이 경우 AI 모델 구축을 위한 훈련 데이터가 충분하지 않은 경우, 실제 데이터와 유사하지만 개인을 특정하는 정보나 민감한 정보를 제거한 데이터를 활용하게 한다. 이 경우 “원본 자료를 모두 재현데이터로 생성하는게 어렵기 때문에, 매우 민감한 정보만 재현데이터로 대체한다”는 설명이다.

‘차분 프라이버시’ 기법도 있다. 즉 데이터셋의 개인 정보에 대한 특정 정보를 유보 내지 왜곡하여 제공하는 시스템이다. 이를 위해 노이즈나 매개변수를 추가하는 정확한 수학적 알고리즘을 사용한다는게 ‘가트너’의 설명이다. 이는 “프라이버시를 보장하면서 의미있는 분석을 지원하고, 원본 데이터를 변경하지 않고 데이터를 ’즉시‘ 변환할 수 있다는 장점이 있다”고 소개한 가트너는 “그러나 복잡한 분석이 어렵고, 분석이나 결과 활용에 숙련 전문가가 필요하다는게 한계”라고 지적했다.

다음으로 ‘가트너’는 “데이터나 알고리즘의 기밀성을 유지하면서 분산화된 방식으로 로컬에서 처리하고 분석할 수 있도록 하는 소프트웨어도 유용하다”고 밝혔다. 그 방식으론 3가지가 있다. 우선 ‘다자간 컴퓨팅’, 즉 데이터나 암호화키를 보호된 상태로 유지하면서, 다양한 개인이나 조직, 단말 등에서 데이터 작업이 가능하게 하는 분산 컴퓨팅 및 암호화 기술이 있다. 가트너는 이를 두고 “데이터 기밀성을 유지하면서 다자간에 분석 결과를 공유할 수 있고, 현재 사용 중인 데이터를 보호할 수 있다”면서 “특히 기계학습 훈련에 실시간으로 활용할 수 있고, 동형 암호화에 비해 속도가 빠르고, PEC 기술 중 도입 수준이 가장 빠른 기술”이라고 평가했다.

‘영지식 증명’이라는 기술도 있다. 이는 “기본 정보를 전공하거나 공유할 필요없이 정보가 정확함을 증명할 수 있도록 하는 프라이버시 보호 메시지 프로토콜”이다. 즉 “민감한 데이터를 전송할 필요없이 정보 유효성을 증명할 수 있고, 대량으로 디코딩이나 인코딩을 할 필요가 없어 네트워크 효율성을 높일 수 있다”는게 가트너의 설명이다. 그러나 “다양한 작업 그룹이 출현하고 있어 애플리케이션간 통합이 필요한 상황”이라는 한계도 있다.

이 밖에 ‘연합 학습’ 기술도 있다. 역시 가트너에 따르면 이는 식별 가능한 데이터를 교환하지 않고 로컬 노드에 있는 다중 데이터셋을 활용하여 분산된 기계학습 알고리즘을 훈련하는 방식이다. 이때 “훈련된 모델은 서버로 전송 및 병합되어 향상된 공통 모델을 생성하는 기술로 클라우드나 서로 다른 기종의 IoT 인프라 환경에서 활용성을 확대할 수 있다”는 설명이다. 이는 또 분산 환경인 만큼 데이터 전송 과정에서 병목 현상을 해결할 수 있고, 중앙 수준에서 로컬 모델 개선 사항을 공유하여 협업 ML이 가능다.

가트너는 끝으로 “민감 데이터 처리 및 분석을 위해 신뢰할 수 있는 환경을 제공하기 위한 하드웨어 측면에서의 기술”을 강조하고 있다. 특히 ‘기밀 컴퓨팅’ 기술에 주목했다. 이는 하드웨어 기반의 신뢰 실행 환경(Trusted Execution Environment; TEE)에서 코드를 실행

하는 보안 메커니즘이다. 일명 ‘엔클레이브(Enclave)’라고도 불린다. “호스트 시스템으로부터 코드와 데이터를 격리 및 보호하며 코드 무결성 및 증명을 제공하는 것”이란 설명이다.

한편 클라우드 환경에서 최근 고객의 워크로드 도청이나 변조에 대한 불안이 커지고 있다. 제3자가 무단으로 접근하는 것에 대한 우려가 높아지면서 이같은 PEC기술에 대한 관심도 날로 커지고 있다. 그래서 대규모 클라우드 사업자는 TEE 솔루션을 점차 제공하는게 최근의 추세다.

앞서 이경남 부연구위원은 “PEC 기술은 아직 기술적인 한계나 본격적인 솔루션 부족으로 초기 단계에 있다”면서도 “규제 수준이나 개인정보에 대한 사용자들의 인식이 높아지면서 데이터로부터 안전하게 가치를 창출하기 위한 기업의 핵심적인 기술로 등장하고 있다.”고 밝혔다.

저작권자 © 애플경제 무단전재 및 재배포 금지