‘초대형AI’ 경쟁력…컴퓨팅파워, 성능평가, 데이터셋이 좌우

정부 주도의 슈퍼컴퓨팅 센터 구축이나 민간 기업과의 협업 대규모 데이터셋 직접 구축, 또는 글로벌 공개 데이터셋과 혼합 구축 GLUE, SuperGLUE 등의 벤치마크 데이터셋을 활용, 성능평가 “한국어 모델 성능 정확한 측정 위해, 한국어 모델 벤치마크 데이터셋”

2022-07-15     이보영 기자
사진은 삼성전자의 데이터센터로 본문과 직접 관련은 없음.(사진=삼성전자)

[애플경제 이보영 기자] 오픈AI의 GPT-3를 비롯해 초대규모(초대형)AI에 대한 관심이 날로 높아지고, 이에 따른 국가 혹은 기업 간의 기술 경쟁도 가열되고 있다. 특히 우리의 경우는 아직 초대형AI를 위한 대규모 데이터셋의 준비가 미흡하고, 컴퓨팅 파워나 모델 알고리즘도 향상시켜야 한다는 지적이 많다. 전문가들은 그래서 이들 세 가지 요소에 걸쳐 대응방안을 마련해야 한다는 주문이다. 특히 한국지능정보사회진흥원은 슈퍼컴퓨팅과 대규모 데이터셋, 고도의 성능 평가 체계 등을 위한 방안을 지속적으로 연구해왔다.

그 간 분석과 연구 보고서를 통해 “컴퓨팅 파워의 경우, 다른 선도국가들은 학습시간 증가에 따른, 컴퓨팅자원이 중요(오픈AI-MS 협약 등)함을 인식하고 있다. 특히 ‘추론’ 성능이 고려되기 시작하고 있음에 주목하며, “정부 주도의 슈퍼컴퓨팅 센터 구축이나 민간 기업과의 협업‘을 강조하고 있다.”고 소개했다. 이에 따르면 우리도 민간클라우드 기업과 협업하여, 슈퍼컴퓨터 지원 전략을 마련해야 한다. 정부 GPU 지원 사업의 유휴 자원 등을 분석하고, 초대규모 모델 개발을 지원하도록 한다. 특히 “학습뿐만 아니라 추론도 지원해야 한다”는 것이다.

미국 오픈AI 등은 학습을 통해 크게 성능을 향상시키고 있다. 오픈AI의 GPT-3모델은 5천억개 단어를 학습함으로써 대규모 언어모델의 비지도학습 활성화에 따른 데이터셋 라벨링 부담을 완화하고 있다. GPT-3는 크롤링 4,100억개, 웹텍스트 190억개 등 5천억개 단어에 달한다. 전문가들은 그러나 우리나라는 기본 데이터의 절대적인 양이 부족하므로, 일정 부분은 정부가 지원해야 한다는 입장이다. 이 경우 초대규모 모델과 일반 모델을 구분하여, 데이터를 구축하되, 초대규모 모델은 보편적 특성을 아우르고, 일반 모델은 도메인을 특화하도록 한다.

모델과 알고리즘 분야에선 연구 분야는 모델의 대형화, 서비스 분야는 모델의 경량화를 추구하는게 글로벌 추세다. 또 자연어 분야 성능평가(GLUE 등) 기준을 통해 모델 성능을 측정하고 있다. 그런 가운데 중국 등 해외에선 모국어 평가 벤치마크를 구축하고 있다. 이에 국내에서도 모델 대형화는 연구계 등에서 추진하고, 경량화 기술을 조기 확보하여 사업화 기반을 마련해야 한다는 의견이다. 또 한국어에 대한 자연어 이해의 성능 평가 기준도 마련할 필요가 있다는 입장이다.

이와 함께 슈퍼컴퓨터와 데이터셋, 그리고 성능 평가 체계는 초대규모 AI 모델 경쟁력 확보를 위한 구체적 전략으로 꼽힌다. 즉, ▲슈퍼컴퓨터의 경우 중장기적인 관점에서 초대규모 AI 모델 연구를 위해 민간 클라우드를 활용하거나 정부가 직접 구축할 수도 있다. ▲데이터셋의 경우 초대규모 모델에 적합한 분야를 선정하고, 모델 크기에 걸맞은 상징적인 초대규모 데이터를 구축할 필요가 있다. 이와 함께 ▲모델의 성능이 공통된 기준으로 평가될 수 있도록 국내 전용 평가체계나 리더보드를 구축할 필요도 있다.

일반 규모 AI 모델을 개발하기 위해서는 20TFlops~40TFlops 규모의 컴퓨팅 자원으로 충분하다. 그러나 GPT-3 수준의 모델을 학습하기 위해서는 국가 차원의 초대규모 모델을 연구할 수 있는 인프라 지원이 필요하다. 이에 정부 주도의 슈퍼컴퓨팅 센터를 건립하거나, 또는 민간 클라우드 기업과 협업하는 방법 중 지속가능한 모델을 선정할 필요가 있다. 또한 국가의 제한된 GPU 자원 내에서 절차적 공정성을 확보한 자원 지원 체계를 마련하는 것이 중요하다.

또한 “현재의 AI 모델링 관점의 자원 지원을 넘어, AI 개발 생애주기를 고려한 전방위적 컴퓨팅 자원”이 중요하다는 의견이다. 즉, AI는 학습과정, 추론과정에서 대규모의 컴퓨팅 자원이 필요하나, 현재는 AI 모델링(학습) 과정의 자원에 국한되고 있기 때문이다. 그래서 실제 응용서비스 환경에서 모델이 클라우드에 적용되었을 때, 추론 등 서비스 상태를 종합적으로 확인할 수 있어야 한다는 주문이다.

초대규모 모델은 추론 시에도 고성능 GPU가 필요하다. 그러므로, 모델이 개발되더라도 추론시간 등을 고려, 실제 적용 가능한 수준인지 여부를 확인할 필요가 있다. 초대규모 AI 모델의 경우 사이즈뿐만 아니라, 데이터의 규모도 중요하다. “대부분의 모델은 모델 사이즈와 데이터의 사이즈가 동시에 개선되어야 성능 향상 효과가 있다”는 지적이다.

또 대규모 데이터셋의 수요가 가장 높은 분야를 선정하고 직접 구축하게 하거나, 글로벌 공개 데이터셋과 혼합하여 구축하는 방안도 거론되고 있다. 현재 AI 데이터 구축사업은 도메인 특화 데이터셋 위주이므로, 보편성이 높은 초대규모 모델을 위한 데이터셋 구축도 필요하다. 또 영어 데이터셋에 비해 한국어 말뭉치 확보는 상대적으로 어려우므로 정부 차원의 적극적인 지원이 필요하다는 주문도 많다.

AI허브(hub)에 구축된 기존 데이터셋과, 연구용으로 개인이 공개한 데이터를 연계하여 대규모 데이터셋을 구축하는 방안도 제기되고 있다. 정부에서 추진하는 AI 허브 내의 데이터나, 국립국어원의 말뭉치 데이터 등을 활용하여 대규모 데이터셋을 구축할 필요가 있다. 또한 개인의 연구 성과를 오픈소스로 공개한 데이터도 활용하고, 나머지 부족한 부분은 새롭게 구축하는 방안도 필요하다. 이를 통해 “공통의 목표 아래 개인이 보유한 말뭉치 등의 데이터를 상호 교환할 수 있는 채널을 마련하는 것이 중요하다”는 견해다.

우리나라 전용 모델을 성능 평가할 체계를 구축하는 것도 중요하다. 언어모델의 경우 대부분 영어 모델에 대한 평가 위주이므로, 국내 NLP 산업의 도약을 위해서는 국내 전용 평가 체계가 필요하다는 것이다. 전 세계적으로 개발된 언어모델의 평가를 위해서는 GLUE, SuperGLUE 등의 벤치마크 데이터셋을 활용하여 평가할 수 있다. 이를 통해 한국어 모델 성능의 정확한 측정은 어려우므로, 한국어 모델을 위한 벤치마크 데이터셋 구축이 필요하다.

현재 국내에서도 민간 주도로 한국어 모델 벤치마크 데이터셋 구축을 추진하고 있다. 다른 비영어권 국가들도 모국어의 언어모델 성능을 평가하고, 각각 모국어 벤치마크 데이터셋을 구축하고 있다. 중국을 비롯해 프랑스, 인도, 러시아, 인도네시아 등도 벤치마크를 구축하고 있다. 우리나라도 이미 각 대학과 민간 연구기관, 관련 업계 등이 NLP 분야 드림팀을 구성하여, 민간의 엔지니어들이 자발적으로 데이터셋과 리더보드를 구축하기 위해 노력하고 있다.

이들 전문가들은 언어모델 평가를 위한 벤치마크 데이터셋 후보(안)를 대략 9가지 정도로 설정하고 있다. ▲개체명 인식(Named Entity Recognition) ▲관계 추출(Relation Extraction) ▲의존 구문 분석(Dependency Parsing) ▲질의 응답(Question & Answering) ▲문장 분류(Text classification) ▲목적형 대화(Task-oriented Dialogue) ▲자연어 추론(Natural Language Inference) ▲일상 대화 이해 ▲문장 유사도 (Open-domain Dialogue Understanding) 등이다.