문제 출제·평가도 거대언어모델 기반 AI로 자동화
일각선 '수능시험문재 AI로 난이도 조절" 주장도
교통안전공단, 'EPTA 문제 AI 자동 출제 시스템' 개발
일부 대학선 문제 난이도 예측 시스템 'LLaSA' 개발
[애플경제 정한빈 기자] AI는 단순 업무 자동화를 넘어 전문 영역에서의 효용성을 입증하는 형태로 발전하고 있다. AI 기술이 과학 기술 및 산업 등에서 보편화되면서 교육 분야에서도 AI 기술을 활용한 자동화 시스템 개발이 활발해지고 있다. 특히 거대언어모델(LLM)을 기반으로 한 AI는 기존에 정확성 및 신뢰성 문제로 사람의 수작업으로만 이루어지던 문제 출제 영역에서 역할을 드러내고 있다. 심지어는 대학수학능력시험 문제 출제에도 AI가 적극 활용될 수 있다는 제언도 나오고 있다.
한국교통안전공단 LLM기반 '‘TS AI 사피엔스'
한국교통안전공단(이하 TS)은 거대언어모델(LLM)기반 AI 기술을 도입해 AI 융합 인재 양성 프로젝트 ‘TS AI 사피엔스’를 운영하며 AI 기반 혁신 서비스를 개발했다.
‘2024 TS AI 사피엔스’ 경진대회에서 최우수작으로 선정된 ‘EPTA 문제 AI 자동 출제 시스템’은 항공영어구술능력증명시험(EPTA)의 문제 출제 프로세스를 자동화한 시스템이다.
이 시스템은 AI를 활용해 기존의 6단계에 달했던 수작업 문제 출제 과정을 3단계로 절차를 대폭 줄여 자동화했다. 문제 출제의 자동화를 통해 업무량과 연간 비용을 80% 이상 절감하고 문제 품질을 향상시켰다.
일각에서는 AI 문제 출제 시스템이 문제 유형을 단순화시켜 다양성을 억제한다는 우려가 있었지만 ‘EPTA 문제 AI 자동 출제 시스템’은 자격 등급과 문제 유형을 설정할 수 있어 다양한 문항이 생성 가능하다. 한국교통안전공단은 향후 음성합성 기술 연동 및 항공 시험출제 위원의 검수를 거쳐 실제 업무에 적용할 계획이라고 밝혔다.
문제 예상 난이도 측정과 배점도 활용
AI 기술의 교육 분야 적용 사례는 문제 출제뿐만 아니라 문제 예상 난이도 측정 및 배점 분배에도 활용되고 있다. 가톨릭대 데이터사이언스학과 김강민 교수 연구팀이 거대언어모델(LLM)을 활용해 시험 문제의 예상 난이도 예측과 배점을 돕는 AI 기술을 개발했다.
시험 문제를 출제하고 배점을 부과하는 경우에 많은 교육기관에서 출제자의 주관적 평가에 의존하는 경우가 많아 실제 학생들의 난이도를 반영하기 어려웠다. 이를 보완하기 위해 개발된 ‘문항 반응 이론(IRT, Item Response Theory)’이 있었지만 학생들의 문제 풀이 기록을 사전에 수집해야만 적용 가능하다는 한계가 있었다.
일부 전문가들은 심지어 "이런 기술을 응용하면 장차 대학입시 수학능력시험문제 출제에도 십분 활용하면 난이도와 변별력을 한층 원활하게 조율할 수 있을 것"이란 예측까지도 나오고 있다.
이에 가톨릭대 김강민 교수 연구팀은 문제 풀이 기록 수집 과정을 65개 거대언어모델(LLM)로 대체해 학생에게 사전에 문제를 노출하지 않고도 대상 집단의 수준에 따른 체감 난이도를 예측할 수 있는 AI 시스템(LLaSA)을 개발했다.
이 시스템은 거대언어모델에 문항 반응 이론을 적용해 문제 난이도 예측 성능을 높였다. 다양한 분야와 형식의 문제를 풀 수 있는 65개의 초거대 언어모델 중 실제 학생의 능력 정보와 가장 유사한 것으로 선정된 언어모델이 학생을 대신해 시험 문제를 풀게 된다. 이후 거대언어모델의 문제 풀이 기록을 바탕으로 문항별 난이도에 따라 점수 배점을 달리해 실제 시험 전에 효과적으로 문항 배점을 설정할 수 있도록 했다.
연구 결과 이번 시스템은 문제의 내용만을 분석하는 기존 방법보다 문제 난이도 예측 성능이 8~23% 높은 것으로 나타났다. 또한 학생 집단의 구성 변화에 따라 언어모델 구성을 조정해 유연한 대응이 가능하다.
김강민 가톨릭대 데이터사이언스학과 교수는 해당 대학 사이트에서 “이번 연구로 학생들의 문제 풀이 능력을 초거대언어모델을 활용해 효과적으로 모사할 수 있다는 것이 확인됐다”며 “이번 연구 결과를 바탕으로 교육현장에서 보다 더 과학적이고 선진화된 문제 난이도 예측 시스템이 적용돼 시험 변별력을 높일 수 있을 것으로 기대된다”라고 말했다.
