오픈소스 LLM 훈련용 커먼 크롤 아카이브, 사실상 ‘보안 무방비’
머신 간 인증 증대, ID 폭증도 ‘API, 암호 등 노출 증가 원인’
메일침프 API키 노출 흔해, HTML·자바스크립트 스니펫 통해 노출도
“‘OIDC’ 등 단기 토큰, AI 에이전트 엑세스와 ID 관리 철저 기해야”
[애플경제 전윤미 기자] 일부 개발자들이 방심하는 틈에 날로 복잡해지는 ID 관리에 소홀한 경우가 많다는 지적이다. 이로 인해 API 키를 노출시키는 하드코딩된 사례가 많은 것으로 알려지고 있다. 실제로 해외에선 최근 인기 있는 AI 교육 데이터 세트의 보관소에서 거의 12,000개의 유효한 패스워드(암호)가 발견되기도 했다. 이는 “업계가 ID 관리의 복잡성을 따라잡지 못하는 데 따른 결과”라는 지탄을 받고 있다.
전세계 26억개 웹, 커먼 크롤 아카이브서 12,000개 노출
특히 중국의 딥시크와 같은 오픈소스 LLM을 훈련할때 사용되는 커먼 크롤(Common Crawl) 아카이브에선 거의 12,000개의 ‘실시간’ API 키와 비밀번호가 발견된 것으로 전해졌다. 커먼크롤은 웹 상의 데이터를 자동적으로 탐색하는 것이다. 웹 크롤링 데이터를 누구나 액세스, 분석할 수 있도록 공개된 저장소에 유지·관리하는 개념이다. 그러므로 보안에 취약할 수 밖에 없다.
이는 국내 AI 솔루션 업계도 예외가 아닐 것이란 추측이어서 해외의 이런 사례는 충분히 우려를 살만 하다. 실제로 커먼 크롤 아카이브의 이같은 보안 문제를 발견한 보안업체(Truffle Security)에 따르면 이러한 패스워드들은 서버가 아닌, 프런트엔드 HTML과 자바스크립트에 하드코딩되어 있는 경우가 대부분이었다.
앞서 해당 보안업체는 전세계에 걸쳐 무려 26억 7천만 개의 웹 페이지에서 수집한 400TB의 웹 데이터로 구성된 커먼 크롤 아카이브를 조사했다. 그 과정에서 오픈소스 패스워드 스캐너인 ‘트러플호그’(TruffleHog)를 사용, 무려 11,908개의 실시간 패스워드를 포착한 것이다. 특히 AWS와 워크스코어 API 키를 포함, 해당 아카이브에서 모두 219개의 서로 다른 패스워드 유형을 발견하기도 했다. 누출된 숫자 뿐 아니라, 무척이나 다양한 유형의 패스워드가 노출된 것이다.
그 중에서도 이메일 마케팅 플랫폼인 ‘메일침프’(Mailchimp) API 키는 가장 자주 유출된 사례임이 드러났다. 또 HTML 양식과 자바스크립트 스니펫, 즉 작은 코드나 텍스트 조각들이 하드코딩된 1,500개의 고유한 API 키도 발견되었다.
LLM이 하드코딩된 패스워드가 포함된 코드들에 노출되면, 해당 LLM모델 출력에선 이같은 암호화된 패스워드가 포함될 수 밖에 없다. 그럼에도 불구하고, 흔히 “미세 조정, 정렬 기술, 신속한 컨텍스트, 대체된 데이터가 이러한 위험을 완화할 수 있다”고 하지만 안심할 수 없다는 지적이다.
피싱, 데이터 유출, 브랜드 사칭에 API 키 악용
이런 점을 악용하면 피싱이나, 데이터 유출, 브랜드 사칭에 API 키를 사용할 수 있다는 우려다. 특히 “날로 복잡해지는 기술 환경과, 기업이나 조직이 관리해야 할 머신 ID의 수가 계속 늘어나는 추세여서, 이런 암호화된 패스워드이 노출도 늘어날 수 밖에 없을 것”이란 얘기다.
특히 현장의 개발자들이 날로 복잡한 머신 ID를 관리하는 데 어려움을 겪으면서 하드코딩 비밀과 같은 인적 오류가 훨씬 더 흔해졌다. 앞서 커먼 크롤의 부작용에서 보듯, 웹 크롤러가 스크래핑한 데이터가 그런 사고의 위험을 더욱 배가시키고 있다. 특히 “머신 간의 인증 요구가 늘어나면서, 자격 증명과 관련 패스워드나 암호가 유출되는 경우가 날로 흔해지고 있다”는 지적이다. 또 개인 데이터를 활용한 AI 모델 교육 등은 특히 비밀이 유출될 가능성이 크다는 우려다.
이에 전문가들은 개발업계 등이 ‘신원’(Identity)에 대한 이해를 바꾸지 않는 한 이런 일이 계속 일어날 것이란 경고다. 보안업체 ‘사이버리즌’은 “신원과 보안에 대한 접근 방식을 바꾸지 않으면, 이런 일은 더욱 늘어날 것”이라며 “특히 ”네트워크에 접목된 모든 기술 계층에 대한 철저한 이해가 필요하다”고 주문했다.
즉, 사용자에 대한 고유한 아이디어나, 특유의 역할 기반 액세스 제어, 독특한 구성이나 구성 구문 등이 그 대상이다. “이를 위해서는 특별한 전문 지식이 필요하다”는 주문도 곁들이고 있다.
이런 위험을 최소화하기 위해선 우선 머신 간의 인증을 위해 한 가지 패스워드를 오랫동안 사용하는 것은 금물이란 지적이다. 대신에 가능한 한 단기 토큰을 사용하는 ‘OIDC’ 또는 이와 유사한 시스템으로 대체하는 것이 바람직하다는 조언이다.
또한 AI 에이전트 기반의 시스템이 민감한 데이터에 액세스하지 못하도록 AI 도입 과정을 엄격히 해야 한다는 주문이다. 개발 프로세스 비밀 유출 방지와, AI 모델에 입력되는 데이터에 대한 철저한 모니터링 등이 대표적이다.
특히 “날로 발전하고 있는 AI 에이전트로 인해 발생하는 ID 관리 문제에 조심해야 한다”는 목소리다. AI 에이전트 구동을 위해 패스워드 또는 기타 민감한 데이터에 대한 액세스가 필요한 경우 특히 이에 대한 액세스를 엄격하게 제어하는게 필요하다는 얘기다.
