메타 ‘스레즈’, 광범위한 고품질 데이터 수집 목적 커
저커버그 “장차 양질의 AI 개발, 앱에 접목 계획” 밝혀
머스크도 “트위터 데이터, 빼가지 마라”며 AI개발사들 차단
고품질 데이터가 고품질 AI 보장, ‘데이터 확보 경쟁’ 치열
[애플경제 전윤미 기자] 메타가 ‘스레즈’를 만든 진짜 이유는 무엇일까? 물론 기존에 메타가 소유하고 있는 페이스북과 인스타그램 이외의 새로운 광고 수익원을 창출하려는 목적도 분명하다. 그러나 그 보다 더욱 근본적인 이유는 소셜 미디어에 넘쳐나는 광범위한 데이터를 수집하기 위한 것이다. 이렇게 수집한 데이터를 기반으로 장차 메타는 AI 사업을 펼칠 것이란 전문가들의 전망이 나오는 것도 그 때문이다.
이처럼 양질의 데이터를 확보하기 위한 노력은 이미 글로벌 업계에서 광범위하게 펼쳐지고 있다. 고품질의 데이터를 얼마나 확보하느냐에 따라 역시 양질의 인공지능(AI)을 구축, 새로운 사업을 펼칠 수 있기 때문이다. 그야말로 ‘데이터 전쟁’이 펼쳐지고 있는 것이다.
머스크, 전격적인 ‘트윗’ 제한 조치
앞서 지난 달 일론 머스크가 ‘발끈’하며 트위터 트윗을 제한한 것도 그 때문이다. 머스크는 당시 자신의 트위터 계정을 통해 “앞으로 하루에 사용자들이 볼 수 있는 트윗은 600개, (유료인) 트위터 블루는 6,000개로 제한한다”는 내용을 공지, 트위터 네트워크가 발칵 뒤집혔다. 그러다가 불과 5시간 후 머스크는 다시 상한선을 수정해 “인증되지 않은 계정은 1,000개, 검증된 사용자는 1만개”로 늘렸지만, 사용자들에게 전해진 충격은 적지 않았다.
이런 조치는 역시 인공지능(AI)사업으로 재미를 보고있는 MS나 오픈AI, 레딧 등 빅테크들을 겨낭한 것이다. 수많은 AI개발 스타트업이나 개인 개발자들이 트위터에 게재된 데이터를 ‘저인망’식으로 긁어가는데 대한 극약처방인 셈이다.
그 동안 머스크는 AI개발사들이 트위터를 누비며 정보를 쓸어가는데 대해 불만이 많았다. “AI 기업들이 돈버는데 왜 우리의 자산(데이터)을 공짜로 갖다 쓰느냐”거나, “트위터에서 너무 많은 데이터를 긁어모아 일반 사용자들의 서비스가 저하되고 있다”고 불평하곤 했다.
AI부문 뒤처진 메타, ‘스레즈’ 통해 LLM 개발 의도
메타 역시 AI 분야에선 MS 등 선발업체에 뒤지고 있다. 이에 마크 저커버그는 뒤늦게나마 AI개발에 주력하고 있다.
메타는 ‘보다 정확한 고객 맞춤형 광고’를 위해 스레즈 가입 단계에서부터 △건강과 피트니스(운동 데이터·임상 건강 기록) △재무 정보(카드번호) △민감 정보(인종·민족·성적 지향 등)를 포함해 총 13개 항목의 개인정보를 수집한다고 밝힌 바 있다.
KB금융경영연구소의 진영리 연구원도 이런 분석에 동의하고 있다. 그는 “(메타는) 인공지능(AI) 시장의 후발 주자로서 방대한 ‘텍스트 데이터’를 확보해 경쟁력을 강화하기 위한 노력을 기울이고 있다”면서 “전 세계적으로 인공지능 기술 개발을 위해 데이터를 확보하고, 인재 발굴에 자원을 쏟고 있다”고 진단했다.
특히 “(메타가) 인공지능 돌풍을 일으킨 챗GPT와 같은 거대언어모델(LLM)을 학습시키려면 방대한 규모의 텍스트 데이터가 필요하다”는 것이다.
그에 따르면 업계에서는 메타가 텍스트 기반의 스레즈를 출시, 방대한 규모의 텍스트 데이터를 확보한 후, 이를 통해 인공지능을 위한 비공식적인 언어 패턴을 학습시킬 가능성이 크다.
이는 기존 메타의 ‘인스타그램’과 ‘페이스북’ 등 소셜미디어의 한계를 극복하기 위한 것이다. 즉, 이들은 이미지와 영상 중심으로 구성되어있어, 텍스트 데이터를 확보하는게 어렵다. 또 ‘메신저’와 ‘왓츠앱’은 사적 대화로서 데이터 활용이 불가능하다는 평가다.
기존 페이스북, ‘인스타’, 텍스트 데이터 미흡
메타 역시 ‘스레즈’는 그런 현실적인 제약을 극복하기 위한 유용한 수단임을 숨기지 않는다. ‘스레즈’ 출시를 앞두고, 메타의 AI 리서치 부사장인 조엘 피노는 “본사가 AI 부문에서 뒤쳐지지 않고, 성공을 위해 AI연구를 위한 구조에 초점을 둘 것”이라고 성명을 통해 밝혔다.
측히 AI 기반의 새로운 차원의 ‘생성 경험’을 앱 제품군에 제공할 것이라고 했다. 실제로 저커버그는 그 후 배경 소음을 제거하기 위해 텍스트 프롬프트를 다른 방식으로 읽거나 오디오 녹음을 수정할 수 있는 AI모델 ‘보이스박스’를 발표했다. 물론 대중화 시기는 언급하지 않았다.
특히 저커버그와 메타는 챗GPT 등장 이후, AI 관련 프로젝트에 올인하고 있다. 저커버그를 비롯한 경영진은 일주일에 몇 시간씩 AI 프로젝트 회의를 거듭하고 있는 것으로 전해졌다. 저커버그는 “AI를 발전시키고 우리의 모든 제품에 구축하는 것이 회사의 최대 투자”라고 말했다.
문제는 이에 필요한 광범위한 고품질 데이터다. 기존 페이스북이나 인스타그램으로선 텍스트 기반의 데이터를 널리 수집하는데 한계가 있다고 판단한 것이다. 그래서 고안해낸 것이 ‘스레즈’인 셈이다.
머스크, 인공지능 전문 ‘엑스AI(xAI)’ 출범
앞서 일론 머스크도 ‘발끈’하면서 다른 빅테크 관련 계정의 무분별한 데이터 수집을 차단한데 그치지 않았다. 아예 지난 7월 12일 새로운 인공지능 회사인 ‘엑스AI(xAI)’ 출범을 선언했다. 그러면서 우선 “트위터의 텍스트 데이터를 인공지능 학습에 직접 활용할 것”을 선언했다. 또한 “더 이상 트위터의 데이터를 스크랩하지 못하도록 차단하겠다”고 밝혔다.
지금까지 오픈AI 등 인공지능 개발기업들은 트위터와 같은 SNS 데이터를 활용해 인공지능을 학습시키곤 했다.
머스크의 이런 조치는 곧 텍스트 데이터의 확보가 인공지능의 성능과 연결된다는 사실을 의미하는 것이다.
월스트리트저널은 “실제로 챗GPT기술을 개발하거나 이를 기반으로 시장 공략에 성공하고 있는 오픈AI나 MS의 사례는 다른 많은 스타트업과 투자자들로 하여금 생성AI를 개발해 돈을 벌고자 하는 욕구를 부채질했다”면서 “이에 개발 시스템을 훈련시키는 데 도움이 될 수 있는 많은 양의 데이터를 보유하고 있는 소셜 미디어 회사들과의 갈등과 긴장도 날로 증폭되고 있다.”고 진단했다.
‘뉴욕타임즈’도 “머스크의 제한 조치는 AI프로그램을 개발하기 위해 데이터를 사용하려는 회사들에게 정면으로 싸움을 건 것으로 매우 이례적인 움직임”이라며 “수많은 AI 회사들이 무료로 모델을 훈련하는 데 도움이 될만한 데이터를 수집하느라 사이트를 스크랩하려는 것을 억제하기 위한 강력한 조치”라고 풀이했다.
그런 ‘데이터 확보전’은 인공지능 개발 경쟁이 지속될수록 더욱 가열될 것으로 보인다. 그런 ‘데이터 전쟁’은 트위터와 일론 머스크가 가장 먼저 불을 붙였고, 메타가 ‘스레즈’를 꺼내들면서, 한층 본격화되고 있는 모습이다.
