천차만별의 LLM…‘벤치마크’ 평가 기술도 발달

LLM의 인식, 추론, 환각, 생성능력 등 성능·품질 평가 소비자에 정확한 LLM 정보 전달, 세부 능력 평가 기술도 진화

2024-10-07     김예지 기자
사진은 'AI엑스포코리아 2024'에 출품한 업체의 제품 안내 부스로서, 본문과 직접 관련은 없음.

[애플경제 김예지 기자] LMM의 성능을 인식, 산술, 추론, 그라운딩(Grounding) 등 다양한 측면에서 성능을 종합 평가할 필요가 있다. 이는 소비자들을 위한 중요한 정보일뿐 아니라, 건강한 품질 경쟁을 통해 AI산업 전반의 경쟁력을 끌어올리기 위한 조건이기도 하다. 이에 다양한 LLM의 성능을 측정, 평가하는 벤치마크들도 날로 늘어나고 있다.

최근 한국지능정보원이나 전자통신연구원 등은 ‘시각-언어 모델(Vision-Language Model)’을 중심으로 LMM의 성능 평가에 주로 활용되고 있는 벤치마크들을 분석, 소개하고 있어 눈길을 끈다. 이에 따르면 벤치마크 유형에 따라 다소 차이가 있으나, 대체로 이들은 ‘인식’, ‘추론’, ‘환각’, ‘생성’ 등의 세부적인 능력을 기준으로 LLM을 평가하고 있다.

‘시각-언어 모델’ 중심으로 한 평가 기준

‘인식’의 경우 ‘시각 인식(VIsual Perception)’을 중시하고 있다. 즉, 이미지나 영상에서 사물, 장면, 텍스트 등을 감지하고 분류하는 능력이다. 이들 전문가들은 “이미지에 개, 고양이, 자동차 등의 객체가 있는지 탐지하고 개수를 인지하는 경우”를 예로 들고 있다. 또한 ‘시각 지식 습득(Visual Knowledge Acquisition)’ 능력도 중요하다. 이는 이미지에서 핵심적인 정보를 추출, 언어로 표현하는 능력이다. 예컨대, 영수증의 상호, 거래 금액, 날짜 등의 텍스트를 인식하고 정리하는 수준이다.

‘추론’의 경우 ‘시각 추론(Visual Reasoning)’과 ‘시각 상식(Visual Commonsense)’으로 나뉜다. 전자는 이미지와 질문이 주어졌을 때 답을 추론하는 능력이다. 예를 들어 사람이 어떤 행위를 하고 있을 때 “이 사람은 지금 무엇을 먹고 있는가?”라고 질문하면, LLM은 이미지를 보고 “햄버거를 먹고 있다.”라고 답변하는 경우다.

‘시각 상식(Visual Commonsense)’은 이미지에 대한 일반적인 ‘상식’을 바탕으로 질문에 답하는 능력이다, 예를 들어 “이 장면에서 무엇이 이상하게 느껴지나?”라고 물었을 때 “자동차 번호판이 천으로 가려져 있다.”라고 상식에 근거해 추론, 답변하는 것이다.

‘환각’은 오류나 잘못된 판단을 최소화하기 위한 평가 항목이다. 그 중 ‘시각적 환각(Visual Hallucination)’은 영상 내 사물의 존재와 개수 등을 잘못 인식하는 경우다. 이에 비해 ‘체화 지능(Embodied Intelligence)’은 물리적 현상과 현실을 이해하고, 특정한 명령에 따른 작업 을 실행하는 능력이다. 예컨대, “테이블 밑을 청소해달라”라고 하면 이에 맞는 청소도구를 갖고와서 청소를 하는 경우다. 즉 명령에 부합한 작업을 하기 위해 집안에서 필요한 물건을 탐색, 적절한 도구를 찾아 작업을 계획하고 실행하는 것이다.

‘생성’의 경우는 ‘이미지 생성(Image Generation)’과 ‘텍스트-이미지 생성(Text-Image Generation)’이 있다. 전자는 대상을 묘사하는 텍스트를 입력하면, 이를 바탕으로 이미지를 생성하는 능력이다. ‘텍스트-이미지 생성(Text-Image Generation)’은 역시 대상을 묘사하는 텍스트를 기반으로, 그에 맞는 이미지나 관련 정보를 생성하는 능력이다. 예를 들어 이야기 줄거리를 바탕으로 그림과 이야기로 구성된 동화를 생성하는 경우다.

벤치마크들은 이런 세부 능력으로 구분해, LMM을 다각도로 평가함으로써 그 품질과 성능을 진단할 수 있는 것이다.

사진은 본문과 직접 관련은 없음.

‘LLM 능력별 평가 태스크’도 눈길

한국지능정보원과 전자통신연구원은 이에 대해 좀더 세부적인 ‘LLM 능력별 평가 태스크’를 제시했다. 이에 따르면 ‘시각 인식’은 사물과 장면 분류 능력이 중요하고, ‘시각 지식 습득’은 텍스트 인식, 핵심 정보 추출, 이미지 캡션 생성 능력이 핵심이다. ‘시각 추론’의 경우 ‘시각 질의 응답’이 핵심 기능이다. 이는 다시 세부적으로 ▲문서 이미지 이해, ▲장면 내 텍스트와 상황에 대한 이해 능력, ▲도표 이해 ▲개념도와 인포그래픽 이해, ▲공간 이해 ▲상황 이해 ▲산술 계산과 수학 등으로 구성된다. 이와 함께 ‘시각적 함의’ 능력과 ‘지식 기반 설명’도 중요하다.

‘시각 상식’ 능력은 ‘시각 상식에 근거한 질의 응답’ 능력과, ‘시각 상식 추론’이 핵심이다. ‘시각환각’의 경우, ‘사물 환각’을 점검하기 위한 ‘시각 질의 응답’ 능력이 중요하다. 또 ‘체화지능’은 ‘체화 질의응답’과 ‘물체 탐지 주행’ 능력이 중요하다. 이 밖에 ‘이미지 생성’ 능력은 ‘텍스트 기반 이미지 생성’ 능력이 핵심이며, ‘텍스트-이미지 생성’ 기능은 ‘텍스트-이미지 생성’능력이 또한 핵심이다.

이같은 LLM 평가를 위한 벤치마크는 날로 그 기술도 발전하고 있다. 최근엔 LMM의 능력을 인식, 판단, 추론, 환각, 상식 등 다각적 측면에서 종합 평가할 수 있는 ‘복합 벤치마크’이 중요해지고 있다. 또 LMM의 모달리티가 언어, 시각을 넘어 청각, 촉각, 행동 등 그 범위가 점차 확장되고 있는 만큼, 이에 대응하기 위한 벤치마크도 늘어나고 있다.

또한 체화 인공지능(Embodied AI)과 로봇 분야를 중심으로, LMM을 실제 세계를 이해하고, 물리적 동작을 제어하는데 응용하려는 시도가 활발히 이루어지고 있다. 이에 데이터셋을 비롯해 시뮬레이터나 실세계 이해 능력 평가 등 확장된 벤치마크도 중요해지고 있다.

특히 최근엔 “국가 또는 지역의 언어와 문화를 심도있게 이해하고 처리할 수 있는 소버린 AI(Sovereign AI, AI 주권)의 중요성이 커지고 있다”며 “이를 위해 자국어는 물론, 특정 국가에 특화된 시청각 정보 처리 능력을 평가할 수 있는 ‘소버린 LMM 벤치마크’를 구축해야 할 필요성이 커지고 있다”는 정보원 등의 전망이다.

이들 연구기관들은 대표적으로 5~6 가지 정도의 주요 ‘복합 능력 평가 벤치마크’를 제시하고 있다. 그 중 ‘MMMU’는 예술, 비즈니스, 과학, 의학 등 6개 분야의 전문적인 지식을 요구하는 시각 질의응답 문제들로 구성된 것이다. ‘MMBench’는 시각적 이해, 논리적 추론, 텍스트 이해, 수리적 추론, 공간 인식, 시간적 추론, 인과 추론, 범주 인식 능력 등으로 구성되어 있다. 또한 기억 유지나, 멀티모달 통합, 세밀한 인식, 추상적 추론, 분석적 사고, 상식 지식, 동적 장면 이해, 감정 인식, 일반화, 대화형 질문, 지식 전이, 장면 설명을 종합 평가하는 질의응답 문제들로 구성되어 있다.

‘MME’는 사물 존재 여부, 수량, 위치, 색상, 포스터, 유명인, 장면, 랜드마크, 예술 작품, OCR, 상식 추론 등의 평가 항목으로 되어있다. 이와 함께 수치 계산, 텍스트 번역, 코드 추론 등을 통해 인식과 인지 능력을 측정한다. ‘MM-Vet’은 인식, OCR, 지식, 언어 생성, 공간 이해, 산술 등 6종의 영상-언어 이해 능력을 평가하는 시각 질의 응답 문제들로 구성되어있다.

‘SEED-Bench’는 모두 27종의 태스크를 난이도에 따라 4개의 계층으로 구분하고 LMM 능력을 종합 평가하는 프레임워크를 제시하고 있다.