‘선·악’의 경계 넘나드는 ‘회색 봇’ 경계령

웹 앱 무차별적 엑세스, 데이터, 개인정보 등 대거 수집 의심스럽거나 공격적 방식으로 웹 스크랩 등 약탈적 트래픽 웹 스크래퍼 봇’, 콘텐츠 애그리게이터, 생성AI 스크래퍼 봇 등

2025-04-06     전윤미 기자
(사진=마인드스튜디오)

[애플경제 전윤미 기자] 겉으로 보기엔 그다지 해로운 것 같지 않지만, 결코 이롭지 않은 ‘회색봇’이 날로 문제가 되고 있다. 특히 빅테크를 비롯, 생성AI 개발 경쟁이 치열할수록 이같은 현상이 심화되고 있다.

보안 전문가들에 의하면 ‘회색 봇’은 언뜻 나쁜 짓을 할 것 같지는 않다. 그러나 많은 AI봇들은 무차별적으로 웹 앱의 데이터를 수집하거나 엑세스하고 있다. 특히 오픈AI, 앤트로픽 등 AI스타트업들의 데이터 셋과 학습 데이터를 강화학 위한 ‘회색 봇’들의 AI 웹 스크래퍼가 극성을 떨고 있어 문제라는 지적이다.

공개된 웹사이트에서 마구 스크래핑

국내 보안업계 일각에서도 이에 대해 “악의적이지는 않지만, 이른 유형의 봇은 여느 해커들과 같은 비슷한 행태를 보이며, 웹 애플리케이션을 침해하고 있어 문제가 되고 있다.”고 경계하고 있다. 지난 달 ‘세계보안엑스포’에 참가했던 이글루코퍼레이션의 한 관계자도 “국내에선 아직 크게 이를 문제시하고 있지 않지만, 해외에선 상당한 이슈가 되고 있는 걸로 안다”고 했다. 국내 보안 전문가들도 이미 무차별적인 데이터 공략을 하고 있는 AI봇에 대한 나름의 경각심을 갖고 있는 셈이다.

실제로 해외 관련 업계에선 이에 대한 경계심이 상당한 것으로 알려지고 있다. 예를 들어 글로벌 보안 회사 바라쿠다(Barracuda)에 따르면 이미 많은 기업들은 공개된 웹사이트에서 데이터를 스크래핑하는 AI봇을 경계하고 있다. 이에 “좋은 봇이나 나쁜 봇도 아닌 ‘회색 봇’”이란 지적이다.

국내외 보안 전문가들의 분석을 종합해보면, 대체로 ‘검색 엔진 크롤러 봇’이나, ‘SEO 봇’, ‘고객 서비스 봇’ 등과 같은 경우 ‘좋은 봇’이라고 할 수 있다. 반면에 개인 데이터를 훔치거나 사기를 저지르기 위해 계정을 침해하는 등 악의적이거나 유해한 온라인 활동을 위해 설계된 ‘나쁜 봇’도 있다.

그 중간에 이도저도 아닌 듯한 ‘회색 봇’이 있다. ‘회색 봇’은 그야말로 선악의 ‘회색지대’에서, 합법의 경계를 모호하게 한다. 예를 들어 이렇다할 만한, 악의적이진 행태는 보이지 않지만, 접근 방식이 의심스런 경우가 이에 해당한다. 때론 그런 엑세스 방식이 매우 공격적이다.

전문가들이 제시한 회색 봇의 예를 들면, ‘웹 스크래퍼 봇’, 또는 뉴스나 여행 상품 등을 위한 자동화된 ‘콘텐츠 애그리게이터’, ‘생성AI 스크래퍼 봇’ 등이 있다.

특히 보안업계에선 세 번째 범주의 행태, 즉 ‘생성AI 스크래퍼 봇’이 특별히 강조되었다. 예컨대 앤트로픽의 클로드봇이나 틱톡의 바이트스파이더(Bytespider) 봇 등이 그런 사례로 꼽혔다.

클로드봇, 틱톡 바이트스파이더 등이 대표적

그 중에서도 ‘클로드봇’은 여느 회색봇보다 데이터 스크랩 등의 측면에서 가장 압도적인 생성AI 회색 봇으로 꼽힌다. ‘클로드봇’은 평소 각종 웹 애플리케이션들을 대상으로 집요하게 스크랩을 요청하는 등 봇 생태계에서 큰 영향력을 지닌 것으로 평가된다.

앞서 바라쿠다 분석에 따르면 어떤 웹 애플리케이션은 30일 동안 하루 평균 32만3,300건의 AI 스크래퍼 봇 요청을 받을 정도였다. 또 다른 웹 애플리케이션의 경우는 하루에 50만건의 요청을 받았다. 평균적으로 웹 애플리케이션들은 하루 동안 약 40,800건의 요청을 받았고, 시간당 평균 요청률은 17,000건에 달했다. 그야말로 ‘융단 폭격’을 방불케 하는, 사실상의 웹 해킹이라고 할 만하다.

회색 봇 이미지. (사진=아이스톡)

이같은 ‘회색 봇’ 트래픽은 어떤 경우는 마치 거센 ‘파도’처럼 밀고 들어온다. 짧게는 몇 분에서 보통 한 시간 정도 웹사이트에 영향을 미친 후 다시 트래픽이 줄어들곤 하는게 보통의 패턴이다. 그러나 정도의 차이가 있을 뿐, 이처럼 끊임없는 트래픽 공격이나, 예상치 못한 임시 트래픽 급증은 모두 웹 애플리케이션에 큰 부담을 주거나, 문제를 일으킬 수 밖에 없다.

이처럼 폭력적인 트래픽은 앱의 작동을 방해하거나, 웹 애플리케이션 트래픽의 성능을 저하시킬 수 있다. 그런가 하면 엄청난 양의 독점적 데이터나 상업적 목적의 정보를 대량으로 수집한다. 심지언ㄴ “웹 트래픽 수치를 왜곡함으로써 데이터 기반 의사 결정을 내리기 어렵게 만드는 등 피해를 줄 수도 있다”는 주장이다.

‘봇 보호기능’ 등의 방어 조치 필요

그래서 이같은 과도한 AI 웹 스크래퍼로부터 정보와 웹 앱을 보호하는 대책이 필요하다. 이를 통해 IP 및 저작권을 보호하고, 데이터와 개인 정보를 보호하며, 성능 저하를 방지할 수 있기 때문이다. 이에 “생성형 AI 스크래퍼 봇 활동을 감지하고 차단할 수 있는 봇 보호 기능을 구현함으로써 웹 애플리케이션이 회색 봇의 영향을 받지 않도록 해야 한다”는 주문이다.

특히 IT나 AI 분야처럼 창조적 발상이 필요한 산업일수록, 데이터가 허가 없이 생성 AI 모델을 훈련하는 데 사용되는 현상에 대한 우려가 크다. 이에 지난 일부 국가에선 아예 ‘회색 봇’에 대한 제도적 규제에 나서고 있다.

지난해 1월, 영국의 정보 위원회(ICO)는 오픈AI나 앤트로픽과 같은 같은 회사가 소유한 LLM의 개인 데이터 수집 및 처리 활동에 대한 조사를 벌였다. 특히 AI 봇의 웹 스크래핑에 초점을 두고 조사에 나섰다.

당시 ICO측은 “생성 AI는 책임감 있게 개발, 배포되어야 한다”면서 “이를 통해 산업적 의무를 재확인하고, 사람들의 정보 권리와 자유를 보호하는 데 도움이 되어야 할 것”이라고 짚었다.