서울대 공대 연구팀, “한국어 언어 모델의 사회적 편향 진단”
‘문장 간’, ‘문장 내’ 편향 진단 테스트 위한 인트라센턴스 양식

사진은 한 산업전시회에 출품한 ICT기업의 IT 및 조명 프로세서 장비 모습으로 본문 기사와는 직접 관련없음.
사진은 한 산업전시회에 출품한 ICT기업의 IT 및 조명 프로세서 장비 모습으로 본문 기사와는 직접 관련없음.

 

[애플경제 전윤미 기자]

인공지능 기반 한국어 챗봇인 ‘이루다’가 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현을 했다고 해서 논란이 된 적이 있다. 이처럼 AI의 사회적 편향성은 또 다른 AI리스크로 지족되며 우려를 낳고 있다. 그런 가운데 9일 한글날을 맞아 서울대학교 공과대학의 윤성로 전기정보공학부 교수팀이 한국어 언어 모델의 ‘사회적 편향’ 진단을 위한 데이터셋인 ‘K-StereoSet’를 공개해 관심을 끌고 있다.

그 동안 인공지능 기반의 한국어 언어 모델에 대한 연구는 비교적 활발히 이뤄져왔다. 그러나 그에 따른 사회적 편향을 진단할 수 있는 수단은 미흡했다는 지적이다. 윤성로 교수팀은 “이번에 공개하는 ‘K-StereoSet’는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정”이라고 밝혔다.

윤 교수팀에 따르면 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. “이 과정에서 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.”는 설명도 덧붙였다. 그 결과 데이터 내의 사회적 편향의 분야는 성별, 종교, 직업, 인종 등 네 가지 항목으로 구성했고, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.

윤 교수팀 설명에 따르면 우선 문장 내 편향 진단 테스트를 위한 인트라센턴스(‘intrasentence) 양식이 있다. “빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다.”는 설명이다. 예를 들어, 한 문장 안에서 ‘심리학자’라는 직업이 제시되면, 한 인간으로서 그는 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있게 한다.

윤 교수팀은 “문장 간 편향 진단 테스트를 위한 인트라센턴스 양식이 그 다음”이라며 “이는 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며, 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다.”는 것이다. 예를 들어, 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.

윤 교수팀의 송종윤 연구원은 “문장 내 편향 진단 샘플 중 관련성 없는(unrelated) 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다.”면서 “또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.

연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적”이라며 “특히 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet를 만들어냈다”고 밝혔다.

<출처 : 서울대학교 공과대학>

저작권자 © 애플경제 무단전재 및 재배포 금지