“‘총전력량/IT인프라 소모전력’의 PUE는 부정확” 지적
단위 에너지당 수행 작업 측정해야 ‘줄당 토큰’ 등 도입 주장
“그래도 PUE가 최선 방법” vs “kw/h, ‘줄’로 에너지/작업 측정‘
[애플경제 이윤순 기자] 데이터센터 에너지 효율을 측정하는 기준인 PUE(전력사용 효율지수)를 두고 새삼 논쟁이 벌어지고 있다. 생성AI 출현 이후 에너지 수요가 급증하고 전력 소모가 많은 애플리케이션이 증가하는 가운데, 데이터 센터 효율성을 측정하는 새로운 방법을 채택해야 한다는 목소리가 높다. 이에 “PUE 대신 줄당 토큰(Tokens per joule) 등과 같은 에너지에 대한 작업 효율을 기준으로 할 때”라는 의견도 등장하고 있다.
그 동안 PUE는 데이터 센터의 에너지 효율성을 판단하는 가장 중요한 척도 중 하나로 여겨져 왔다. 이는 데이터센터 총 전력량을 IT장비 전력량으로 나눈 값으로 1에 가까울수록 전력 효율이 좋은 데이터센터로 평가된다. 쉽게 말해 조명부터 냉난방까지 모든 시설에서 사용하는 총 에너지를 실제 IT 시스템에서 사용하는 총 에너지로 나눈 값이다. 일반적인 데이터 센터의 PUE는 약 2.0이며 첨단 데이터 센터의 경우 1.38 정도다. PUE를 사용함으로써 전력 사용량에 대한 정확한 정보를 파악해 전력 사용 통계, 재무나 회계 등에도 활용할 수 있다.
PUE 크게 낮아지면서 ‘다른 기준 전환’ 목소리
PUE는 지난 2007년 처음으로 실용화될 당시만 해도 평균 데이터 센터 PUE는 2.2에 불과했다. 그 후로 PUE는 데이터 센터 인프라의 성능을 이해하는 주요 방법으로 널리 채택되었다. PUE를 줄이는 데 초점을 맞춘 노력이 이어지면서 최근엔 1.2까지 낮출 수 있게되었다. 실제 엔비디아의 경우 “애플리케이션을 실행하는 진행 상황을 정확히 측정하기 위해 데이터 센터에 이젠 좀더 업그레이드된 에너지 효율성 측정기준이 필요하다”고 주장하면서 “PEU로부터 다른 기준으로 전환할 때가 왔다”고 제안하기도 했다.
그 동안 PUE는 클라우드 컴퓨팅이 부상하는 등 변화 국면에서 데이터 센터에 잘 활용되었으며 앞으로도 계속 유용할 것이란 전문가들의 의견이다. 그러나 또 다른 시각에선 “워크로드와 이를 실행하는 시스템이 극적으로 변화한 오늘날의 생성 AI 시대에는 그것만으로는 충분하지 않다.”는 목소리도 날로 높아가고 있다.
이에 에너지와 작업(일)수행도를 비교하는 국제표준 단위인 ‘줄’(joule)이 그 대안으로 등장하고 있다. 애초 PUE는 데이터 센터의 유용한 출력을 측정하지 않고, 소비하는 에너지만 측정한다는 지적이다. “마치 자동차가 얼마나 멀리 갔는지 알지 못한 채 엔진이 사용하는 휘발유의 양만 측정하는 것과 같다”는 것이다.
“W단위 전력 측면, 시스템․프로세서 설명 잘못”
컴퓨터 산업의 에너지 효율 측정이 시작부터 왜곡되었다는 지적도 따른다. 즉 “와트 단위의 ‘전력’ 측면에서 시스템과 프로세서를 설명해온 것이 잘못”이란 얘기다. 이에 따르면 시스템과 프로세서에 드는 전력 수준(와트)이 증가한다고 해서 에너지 효율성이 낮은게 아니다. 그 보단 ‘사용하는 에너지 양’과 ‘수행하는 작업량’을 비교해야 정확한 효율성을 측정할 수 있다는 설명이다.
IT프로포탈은 “더욱이 업계에서는 프로세서 명령이나 수학 계산과 같은 추상적인 용어로 측정하는 경향이 있다”면서 초당 수백만개의 명령(MIPS)과 초당 부동 소수점 연산(FLOPS)이 널리 인용되는 경우를 사례로 들었다. 이러한 기능이 컴퓨터 과학자에게는 유용하지만 사용자로선 시스템이 실제로 얼마나 많은 ‘작업’을 수행하는지 알 수 없다는 지적이다. 그래서 “데이터 센터 지표는 에너지와, 이를 사용하여 수행되는 작업량(kw/h 또는 ‘줄’)에 초점을 맞춰야 한다”는 주장이다.
이같이 변화가 필요한 시기라는 인식은 날로 확산되고 있다. 이런 인식을 갖고 있는 업계 전문가들은 “현재는 데이터 센터의 PUE가 1.2에 도달하면 측정 지표가 ‘이상적’이라고 판단하고 있다”고 꼬집었다. 즉 예전처럼 데이터센터의 에너지 효율성이 좋지 않았을 때는 PUE가 유용했지만, 지금은 상황이 달라졌다는 얘기다. 데이터 센터 운영자로선 생성AI 시대에 맞는 워크로드의 에너지 효율성을 측정하는 일련의 벤치마크가 필요하다는 주장도 나오고 있다.
그래서 강조되는 것 중 하나가 ‘줄당 토큰(Tokens per joule)’이다. 이는 생산된 제품에 투입된 에너지 효율성을 가장 잘 보여주는 훌륭한 도구라는 평가다.
여전히 PUE 옹호하는 시각도 팽배
그러나 이에 대해 여전히 PUE를 옹호하는 시각도 여전히 많다. 옴디아(Omdia)의 클라우드 및 데이터 센터 연구 책임자인 블라디미르 갈라보프는 “원칙적으로 PUE가 데이터 센터 효율성을 측정하는 최적의 척도가 아니라는 점에 동의하지만, 그렇다고 해서 아직 검증되지 않은 다른 대안을 섣불리 도입하는 것은 문제”라고 IT프로포탈에 밝혔다.
그는 측정 기준이 문제라기보단, 장비와 서버의 전력 낭비가 더 문제라는 지적이다. 즉 “서버를 과잉 프로비저닝하는 문화, 즉 유휴 상태로 있는 서버나, 활용도가 50%를 넘지 않는 서버가 전력을 낭비하는 경우가 많다”면서 “그런 서버들이 때론 최대로 활용되는 상태에서 소비한 전력과 맞먹을 정도”라고 지적했다.
그러면서 “PUE가 데이터 센터 효율성 측정을 위한 사실상의 표준이라는 사실을 과소평가해선 안 된다”면서 “규제 기관과 같은 데이터 센터 산업 외부의 이해 관계자들은 이를 잘 이해하고 있다. PUE가 최적의 측정 기준이든 아니든, 이를 대체하는게 결코 쉽지않을 것”이라고 밝혔다.
한 술 더떠 민간연구기관인 ‘업타입 인스티튜트’의 연구 책임자인 대니얼 비조는 역시 ‘IT프로’에 “PUE가 배전 및 열 관리의 에너지 효율성을 나타내는 유용한 지표이긴 하지만, IT 인프라 자체의 효율성을 설명하지는 않는다”고 못박았다. 그는 “IT 인프라 효율성을 확립하고 ‘에너지당 작업량’을 늘리려는 욕심은 늘 있어왔지만, 이를 달성하는데는 매우 문제가 많다”면서 “특히 실제 에너지 효율성을 대표하는 공식을 제공하는 표준 벤치마크 제품군을 개발하는 것은 매우 어려운 문제”라고 했다.
“인프라 운영 최적화가 에너지 효율 결정” 반론도
또 컴퓨팅 플랫폼의 에너지 효율성 기준을 설정하더라도 그 실효성이 문제다. 인프라 운영자가 효율성이 최적 수준에 가깝게 유지할 수 있느냐에 따라 실제 에너지 성능이 결정된다는 것이다. 일부 시스템의 경우는 70~80%인 반면, 또 다른 시스템은 90~100%의 최고 효율성에 도달할 수도 있다.
또 다른 문제는 컴퓨팅 플랫폼이 서류상으로는 더 효율적이라고 해도, 애플리케이션이 최적화되지 않으면 에너지 효율성을 정확히 추출하지 못할 수도 있다는 점이다. 궁극적으로 사용자들은 특정 애플리케이션 세트에 가장 적합한 컴퓨팅 플랫폼이 무엇인지 파악하고, 이에 맞게 성능이나, 에너지, 비용 간의 균형(에너지 효율성 기준)을 맞춰야 한다. 즉 “워크로드 목적이 서로 다른 플랫폼을 포괄적으로 비교하려는 노력은 무의미하다.”는 것이다.
결론적으로 IT 에너지 성능을 향상시키려는 운영자는 시스템 활용도를 최적에 가깝게 유도하는게 우선이다. 그런 다음 병목 현상을 식별하고, 애플리케이션에 적합한 시스템 구성을 선택해야 한다. 이를 바탕으로 컴퓨팅 시스템의 성능과 전력 프로필을 적극적으로 관리함으로써 최적의 에너지 효율성을 기할 수 있다는 얘기다.
