“해커의 ‘보물 창고”…온갖 사용자 정보와 맥락 담긴 엄청난 학습 데이터
美 오픈AI 해킹 계기, “네이버․카카오 등 국내 AI개발업계도 각별한 대응”
사이버공격자들 가장 탐내는 해킹 대상, “AI제공받는 기업․개인도 위험”
[애플경제 이윤순 기자] 최근 뒤늦게 알려진 오픈AI 해킹 사건이 갈수록 파장을 일으키고 있다. 비록 챗GPT와 같은 핵심적 기밀에는 전혀 영향이 없다곤 하지만, 앞으로 모든 AI 기업들이 해커들의 가장 욕심나는 표적이 될 수도 있다는 점이 정작 문제다. 국내 AI관련 업계도 예외가 아니란 점에서 특히 우려를 사고 있다.
뉴욕타임스는 “해킹 자체도 놀랄 만한 일이고, AI 군비 경쟁에서 중국이나 다른 적들이 우리를 따라잡을 위협이 될 수 있다는 것도 문제다. 그러나 더 큰 문제는 이러한 AI기업들이 매우 중요한 엄청난 양의 데이터를 소장하고 있다는 사실”이라고 지적했다.
사실 네이버, 카카오를 비롯한 국내 크고 작은 AI 개발업계도 이를 반면교사로 삼아 새삼 사이버보안에 각별한 대응에 나서야 한다는 지적이다. 여느 IT업계나 산업 분야보다 AI관련 업계가 해킹을 당할 경우 그 피해는 상상하기 힘들 정도라는 지적이다.
“AI업계 해킹, 어떤 산업 분야보다 피해 클 것”
이번에 해킹 당한 오픈AI처럼 국내 AI개발업계도 AI개발을 위한 고품질의 교육 데이터, 대량 사용자 간의 상호 작용 모델, 그리고 방대한 고객 데이터를 지니고 있다.
업체가 보유하고 있는 데이터엔 일반인이 상상하기 힘들 정도로 비밀이 많기 때문에 정확히 어떤 훈련 데이터를 가지고 있는지는 확실하지 않다. 그러나 그것들은 단지 ‘스크랩된 웹 데이터의 큰 더미’ 차원을 뛰어넘는다.
예를 들어 웹 스크레이퍼나 파일과 같은 데이터 세트를 사용하지만, 그런 원시 데이터를 LLM모델 혹은 sLM을 훈련하는 데 사용할 수 있도록 변환하는 작업 자체가 엄청난 일이다. 이를 위해서는 오랜 시간 고급 인력에 의한 분석과 수작업이 필요하며, 이는 극히 일부만 자동화할 수 있다는게 업계 관계자들의 설명이다.
업계 전문가들에 의하면 기계 학습을 통해 LLM을 생성하는 데 필요한 모든 요소 중에서 가장 중요한 요소는 ‘데이터 세트 품질’이다. 이에 광범위한 소스로부터 수집된 데이터로 훈련된 모델은 그 자체로서 엄청난 정보의 보고(寶庫)인 셈이다. 그렇다보니 훈련 데이터에 저작권을 침해할 만한 데이터나 정보를 포함하고 있는 경우도 많을 것으로 의심된다. 실제로 오픈AI가 뉴욕타임스로부터 저작권 소송을 당하는 등 구설수에 오르고 있는게 그 대표적인 사례다.
그러나 해커들로선 가장 중요한 자료는 엄청난 사용자 데이터다. 네이버, 카카오 등 소셜미디어나 검색엔진을 소유하고 있는 기업들은 그 방대한 사용자 데이터를 바탕으로 비교적 손쉽게 AI 모델을 구축할 수 있다. 아마도 수십만 개의 아이템이나 주제를 둔 수 억 또는 수십억 건에 걸쳐 오간 대화야말로 소중한 자산일 수 밖에 없다.
네이버․카카오, 구글, 챗봇업계 ‘심층적 인구집단 맥락 획득’
검색 분야의 1인자인 구글이나, 챗GPT를 통해 천문학적 숫자의 대화 내용과 사용자 데이터를 매순간 확보하고 있는 챗GPT가 AI개발을 선도하고 있는 것도 그 때문이다. 한때는 검색 데이터가 한때 웹의 집단적 심리를 이해하는 열쇠로 간주되었다. 그러나 챗GPT는 구글 사용자의 세계만큼 넓지는 않지만, 훨씬 더 깊이 있는 인구 집단의 맥락을 파악하고 있다는 평가다. 즉, 습니다. 사용자가 ‘선택’을 해제하지 않는 한 대화 내용은 교육 데이터로 사용된다.
예를 들어 검색창에서 ‘에어컨’ 검색이 증가하면 날씨가 덥거나, 금융시장이 다소 가열된 것을 비유하고 있음을 알 수 있다. 그러나 사용자 개인이 원하는 것이 무엇인지, 어느 정도 비용을 지출할 의향이 있는지, 그리고 투자를 피하고 싶은 업체 등에 대해 구체적인 대화를 나누지는 않는다.
그러나 소셜미디어나 챗GPT와 같은 생성AI와 LLM기반의 챗봇은 다르다. 그런 구체적인 개인의 상황과 투자 심리 등이 속속들이 표현된다. 이는 AI 개발자뿐만 아니라 마케팅 팀, 컨설턴트, 분석가에게 그 보다 더 유용한 정보가 없다. 또 사용자들이 실제로 AI툴을 어떻게 사용하는지를 한 눈에 들여다볼 수 있게 한다.
또 수많은 기업들도 그들의 경영활용을 위해 이런 AI툴의 API 도구를 사용한다. 이를 위한 언어 모델은 또 끊임없이 내부 데이터베이스에 의해 미세 조정되고, 이에 접근하기 위한 권한이 별도로 부여되곤 한다.
이는 오래된 예산 내역 서류나 인사 기록처럼 그다지 중요하지 않을 것일 수도 있다. 그러나 미처 출시되지도 않은 소프트웨어의 코드처럼 한 AI회사의 생존을 좌우할 만큼 값어치 있는 것일 수도 있다. 또 이들 기업들이 AI 기능으로 어떤 기업활동을 하는지, 실제로 유용한지를 파악할 수도 있다. 특히 여느 다른 SaaS 제품처럼 AI를 개발, 제공하는 업체가 이들 고객 기업들의 정보망에 대한 액세스 권한을 갖고 있다는 점이 중요하다.
“AI제공업체, 여느 SaaS처럼 고객 기업 엑세스도 문제”
이는 무엇보다 중요한 산업 기밀이며, 오늘날엔 그 어떤 업종보다 AI개발업체들이야말로 그런 기밀의 중심에 있다.
그러므로 “다른 SaaS 제공업체들과 마찬가지로 AI 회사는 업계 표준 수준의 보안, 개인 정보 보호, 온프레미스 옵션을 완벽하게 제공하고 책임감 있게 서비스를 제공할 책무가 주어진다”는게 전문가들의 지적이다. 이번에 새삼 해킹 사실이 드러난 오픈AI의 경우 ‘포춘’(Fortune) 500대 기업 고객의 개인 데이터베이스와 API 호출을 매우 엄격하게 관라하고 있는 것으로 알려져있다.
이처럼 AI의 맥락에서 기밀 데이터를 처리하는 데 내재된 위험을 확실히 인식하고 있어야 한다. 그런 의미에서 오픈AI가 사이버공격을 당한지 1년이 다 되도록 이를 공개하지 않은 사실은 크게 비판받을 만한 점이라는 지적이다.
이에 완벽한 보안 관행을 통해 보호해야 할 정보의 가치를 높이고, 호시탐탐 노리고 있는 사이버 공격자와 잡다한 해커들에 철저히 대응해야 한다는 얘기다. 기술매체 테크리퍼블릭은 “보안은 단지 올바른 설정을 선택하거나 소프트웨어를 업데이트하는 것이 아니다”면서 “아이러니하게도 이제는 ‘끝없는 고양이와 쥐 게임’이 AI 자체에 의해 강화되고 있다”고 경계했다.
보안업체 ‘더코더’의 이종철 부사장은 “수많은 개인 데이터나 상업적으로 가치 있는 데이터를 수집, 보유하는 기업은 늘 위험에 직면해있다”면서 “문서나 시스템 보안 등은 AI 관련 회사와 비즈니스를 하는 사람이라면 누구나 걱정할 만한 숙제”라며 사이버보안의 중요성을 강조했다.
