데이터 전처리 통해 노이즈, 이상치, 결측치, 아티팩트 등 제거․교정
정확도․정밀도, 정밀도/재현율의 조화평균, 절대오차 교정 등 ‘AI모델 테스트’
생성AI, 스스로 최대 보상치 선택하는 강화학습, 연합학습으로 모델 최적화
[애플경제 전윤미 기자]전문가들은 AI 모델링 최적화를 위해 특히 데이터 전처리 과정을 중시하고 있다. 금융보안원, 정보통신기획평가원, 한국전자통신연구원 등의 연구기관들마다 약간 차이가 있지만, 대체로 노이즈나 이상치(Outlier), 결측치(Missing Value), 중복(Duplicate) 등 오류와 하자의 원인이 되는 요소들을 제거, 교정하는 절차가 필수적이다.
데이터 전처리 과정의 다양한 오류 원인 제거
이들 기관과 전문가들이 가장 공통적으로 경계하는 것은 노이즈나 ‘이상치’다. 특히 금융보안원은 "노이즈는 말 그대로 측정 과정에서 정확한 결과값에 흠집을 가하며, 무작위로 발생하는 측정값의 오류를 말한다"고 규정했다.
이에 따르면 또한 ‘이상치’는 다른 대부분의 데이터와 유독 크게 다른 특성을 보이는 값이다. 이는 전체 데이터의 정밀성, 정확성을 결정적으로 훼손하는 요인이 된다. 흔히 데이터 입력 과정이나 측정 과정의 오류에서 발생할 수도 있고, 실험의 오류로 발생할 수도 있다.
‘결측치’도 데이터 전처리 과정에서 특히 유의해야 할 요소다. 이는 전산오류나 미입력 등의 이유로 누락된 측정값이라고 할 수 있다. 이와는 또 다른 하자 원인으로 ‘불일치 값’(Mismatch Value)도 있다. 이는 동일한 개체임에도 불구하고, 측정 데이터가 번번이 다르게 나타나는 경우다. 결측치보다 더욱 그 원인을 찾아내기가 어렵다.
또는 데이터 전처리 결과, 그 속성이나 값이 동일한 경우도 드물지 않다. 이 외에 측정 장비에서 측정하는 값과 실제 값이 차이가 나는 ‘바이어스’(Bias) 현상도 흔하고, 외부 요인이나 장애로 인해 반복적으로 왜곡 또는 고장이 일어나는 경우도 있다. 이른바 ‘아티펙트’(Artifact) 현상이다.
예를 들어 카메라를 이용하여 영상 데이터를 획득하는 과정에서, 렌즈의 얼룩처럼 사소하고도 어처구니없는 원인으로 지속적인 왜곡이 발생한 경우다. 반면에 악의적이거나 고의적으로 데이터가 변조 내지 오염된 경우도 있다.
운영 중 AI모델, 테스트 엔진 가동도 필요
이같은 전처리 과정의 교정과 클리닝을 거친 후엔 개발・테스트 엔진을 가동할 수 있다. 이는 “운영 중인 AI 모델의 고도화・개선 및 성능을 테스트하기 위한 시스템”이란게 정보통신기획평가원의 설명이다. 이 경우 ‘데이터 처리’ 단계에서 정제된 데이터를 기반으로 AI 모델의 성능을 테스트할 수 있다.
이때 여러 지표를 통해 AI 모델의 성능을 확인할 수 있다. 우선은 정확도(Accuracy)이다. 이는 예측한 데이터셋 중에서 얼마나 정확하게 예측이 가능한지를 나타내는 비율이다. 또 예측값과 실제값의 탐지값이 각기 얼마나 차이가 나는지를 통해 AI모델의 성능을 가늠할 수 있다. 전문가들은 이를 ‘오차행렬(Confusion Matrix)이라고 부른다.
‘정밀도’도 성능 테스트의 중요한 요소다. 이는 실제값 예측 결과, 얼마나 정확한 실제값을 탐지할 수 있는 비율이다.
이른바 ‘F-점수’(F-score)를 중시하는 전문가들도 있다. 이는 정밀도와 재현율에 대한 산술평균을 낸 후 이를 역수(역으로 뒤집음)로 계산한 조화평균 값을 말한다. 이런 조화평균에 의해 AI모델의 성능을 좀더 정확하게 판단할 수 있다.
AI모델 성능 테스트에서 평균절대오차(MAE) 기법도 많이 쓰인다. 이는 정답과 에러 간의 절대거리를 평균한 거리를 말한다. 즉 평균절대오차 수치가 작을수록 모델의 성능이 좋다는 뜻이 된다.
최적화 위한 강화학습․연합학습 등으로 첨단화
AI모델 최적화를 위한 학습 기법도 날로 첨단화되고 있다. 한국전자통신연구원은 지도학습과 비지도학습, 강화학습의 진화 수준을 정확히 구분하고 있다.
종래 지도학습은 그야말로 정답이 주어진 상태, 즉 개발자의 ‘지도’ 아래 AI가 학습하는 방식이다. 이에 비해 비지도학습은 정답을 알려주지 않은 상태에서 AI가 스스로 데이터의 특성을 학습하고 패턴을 파악하는 방식이다. 한 단계 발전된 단계라로 할 수 있다.
그러나 최근의 초대형 생성AI의 경우는 이를 뛰어넘어 강화학습에 의한 것들이다. 이는 일단 정해진 환경 안에서 동작하는 (데이터셋) 에이전트가 현재의 상태를 인식하고, 선택할 수 있는 행동 중에서 스스로 보상을 최대화하는 행동을 선택하여 학습하는 방식이다. 그야말로 자율적 지능 내지 생성 능력을 지닌 지능이라고 할 수 있다.
연합학습도 최적화된 AI모델의 필요조건으로 들 수 있다. 이는 클라이언트에서 자신의 데이터로 학습하고, 중앙서버로 AI 모델의 매개변수를 전달함으로써 중앙서버에서 AI 모델을 학습하는 방식이다.
특히 LG CNS 사이버 시큐리티팀은 “사용자의 스마트폰에서 데이터를 처리해 모델을 강화하고, 이 모델을 한 곳에 모아 더욱 정교하게 만든 다음, 재배포하는 방식, 즉 중앙서버가 아닌 개별 스마트폰에서 학습하는 것”으로 규정하고 있다.
다시 말해 구글이 앞장서 시도하고 있는 연합학습은 원본 데이터를 전달하는 것이 아니라, 이를 바탕으로 학습된 결과(머신 러닝)를 전달하는 방식이다. 최근 초대형 생성AI가 대표적이다.
이는 개인정보 보호와 컴퓨팅 자원의 효율성, 비용절감, 사용자 맞춤형 정보 제공 등의 복합적 효용을 기대할 수 있다. 개인정보를 중앙서버로 직접 전달하는 것이 아니기 때문에, 개인정보보호를 위한 규제 등으로부터 자유로울 수 있다. 또 서버에서 전달받은 AI 학습 매개변수를 기반으로 클라이언트가 즉시 결과를 도출할 수도 있다.
