“막대한 LLM 에너지, ‘데이터 계층화’로 줄여야”
특정 데이터는 늘 접근 가능, 기타는 속도 느린 하위 데이터 계층에 ‘액티브 아카이빙’도 대안으로, 오랜 데이터를 역동적 리소스로 변화
[애플경제 엄정원 기자] AI 모델 학습 및 AI 추론에는 막대한 양의 물이 소모된다. 그렇다면 에너지와 물 사용량을 어떻게 줄일 수 있을까? 최근엔 ‘데이터 계층화’ 등의 방안이 그 해법으로 등장하고 있어 주목된다.
챗GPU를 비롯한 최신 LLM은 답을 찾는 과정에서 수천억 내지 수조 개의 매개변수를 분석한다. 날로 모델의 크기, 즉 매개변수도 확장됨에 따라 인프라에 가해지는 부담은 더욱 커질 수 밖에 없다. 이에 전문가들은 “더욱 스마트한 ‘데이터 전략’을 통해 AI 리소스 수요가 통제 불능 상태로 급증하는 것을 막을 수 있을 것”이라며 ‘데이터 계층화’ 등을 대안으로 제시하고 있다.
단기적이고 반응적인 데이터 프로젝트에서 벗어나야
AI 스토리지 관련 분석 리포트를 최근 공개한 ‘액티브 아카이브 얼라이언스’는 “에너지나 물 사용량을 줄이는 효과적인 전략 중 하나는 데이터 계층을 구축하는 것”이라며 기업이나 조직에서 내부 LLM을 구축하는 경우를 예로 들었다.
이런 사내 모델은 일반적으로 챗GPT 같은 모델보다 훨씬 규모가 작다. 그럼에도 계층화를 통해 전력과 물 등 에너지를 절감할 수 있다. 특정 데이터는 쿼리를 통해 항상 접근 가능하도록 한다. 대신에 다른 데이터는 속도가 약간 느린 하위 데이터 계층에 위치하는 구조를 구축할 수 있다.
예를 들어 지난 2년간의 모든 데이터나, 회사와 관련된 다른 주요 데이터는 즉시 이용 가능할 수 있다. 반면에 나머지는 모두 하위 계층으로 분류된다. 특정 쿼리가 하위 계층이나 아카이브의 데이터를 대상으로 하는 경우, 응답은 몇 분 정도 지연될 수 있다.
그래서 “단기적이고 반응적인 데이터 프로젝트에서 벗어나, 전략적이고 지속 가능한 데이터 아키텍처로 전환해야 한다”는 주문이다.
‘액티브 아카이브 얼라이언스’는 AI 시대의 지능형 데이터 관리를 위한 솔루션으로 ‘액티브 아카이빙’을 권하기도 한다. 즉, 최신 아카이브 아키텍처는 “오래되고 거의 접근하지 않는 데이터의 먼지 쌓인 저장소를 그냥 규정대로 묵혀두지 않는다”고 했다. 규정 준수를 넘어 회사에 가치를 더할 수 있는 더욱 역동적인 리소스로 아카이브로 변화시키고 있다는 설명이다.
한때 쓸모없거나 순전히 과거 데이터로 여겨졌던 데이터도 마찬가지다. 이에 AI 모델이 접근, 이전에는 간과되었던 가치를 발견할 경우 새로운 값어치로 평가될 수 있다.
이에 따르면 실제로 디지털 데이터의 최소 80%는 활동이 적거나 완전히 비활성 상태인 것으로 분류될 수 있다. AI 엔진 쿼리가 이같은 모든 데이터를 처리해야 한다면, 이는 전력과 물의 80% 낭비를 의미한다. 그래서 “특정 쿼리에 필요할 때까지 해당 데이터를 활성 아카이브에 보관함으로써 AI 리소스 사용 문제를 상당히 줄일 수 있다”는 지적이다.
일부 기업의 경우, 인메모리 스토리지, SSD, 디스크, 클라우드, 테이프, 광 스토리지 등을 포괄한 정교한 계층화 시스템을 구축하고 있다. 이 경우 데이터 계층 구조를 따라 내려갈수록 액세스 시간은 단축된다. 더욱이 최신 ‘활성 아카이브 소프트웨어’를 사용하면 온라인 자동 테이프 시스템에 저장된 데이터도 몇 분 안에 액세스할 수 있게 된다.
즉 ‘활성 아카이브’는 기존 물리적 아카이브의 한계를 해결하고, 보조(아카이브) 스토리지 시스템에 대한 빠른 액세스 시간을 보장한다“는 것이다. 이는 AI 관련 워크플로우에도 큰 도움이 된다.
엄청난 매개변수와 데이터에 에너지난 심해
에너지 절감을 위해선 LLM이 접근해야 하는 매개변수의 수와, 쿼리 해결에 해당 데이터가 필수적인 경우를 대비, 손쉽게 활용할 수 있는 매개변수에 세심한 주의를 기울여야 한다. ‘테크리퍼블릭’은 “활성 아카이브의 데이터는 항상 온라인 상태이며 쉽게 접근할 수 있으므로 필요할 때 빠르게 검색하고 분석할 수 있다”면서 “그 결과 값비싸고 고성능이며 에너지 집약적인 기본 스토리지를 절약할 수 있다.”고 결론지었다.
한편, LLM의 에너지 및 물 사용량에 대한 우려는 날로 심각해지고 있다. 오픈AI CEO 샘 알트먼은 이런 우려를 의식한 듯, “최근 평균 쿼리가 기존 추정치보다 10배 적은 에너지(0.34와트시, 0.000085갤런의 물)를 사용한다고 말했다.
그러나 이 회사는 하루 25억 건의 쿼리가 처리된다. 이는 거의 10억 와트시에 해당하며, 100만 가구에 1시간 동안 전력을 공급할 수 있는 양이다. 또한 일일 사용량은 거의 25만 갤런에 육박하고 있다. 공공기관이나 국가가 감당하기 어려운 상황에서 엄청난 양의 전력과 물을 사용하는 셈이다.