LLM, 여성과 유색인종 등 배제, ‘임상데이터 크게 부족’
여성 환자, ‘오진’이나 예후 축소할 가능성 더 높아 위험
‘맨테크’ 용어없어도 ‘펨테크’는 널리 사용, “역설적으로 여성 차별”
[애플경제 이윤순 기자] AI의료도구가 발달하면서 유방암이나 불임 등 여성질환을 위한 적용 사례도 늘어나고 있다. 그럼에도 불구하고, 대부분의 만성질환에서는 여성의 건강 문제에 관한 임상 데이터가 눈에 띄게 부족하다는 지적이다. 시장분석기관인 IRS글로벌이 기업 분석업체인 CB인사이트, 그리고 각종 전문 자료를 종합해보면, 특히 ‘리프로덕티브 헬스’(성과 생식에 관한 건강)이나 심장혈관 등 여성에게 많이 발생하는 질병에 ‘여성’을 반영한 임상 데이터가 현저히 부족하다는 평가다.
또 백인 남성 이외의 여성이나 유색인종, 소수민족 등도 사실상 배제된 것이나 다름없다는 지적이다. 그간 전례를 보면, 대부분의 임상 시험과 과학 연구는 주로 백인 남성을 대상으로 진행되어 왔다. 이로 인해 의학 연구에서 여성과 유색인종이 상당히 저평가되었다는 지적도 나온다.
오히려 여성을 위한 디지털치료라는 개념의 ‘펨테크’라는 말이 그런 점에서 역설적 의미로 해석된다. 이는 월경 관리 앱 ‘클루’의 창업자인 아이다 틴이 만들어낸 용어다. 여성의 건강과 웰니스(wellness)를 기술을 통해 지원하는 제품 및 서비스를 지칭하기 위해 고안해낸 것이다. 스마트폰 앱이나 웨어러블 단말기와 같은 ‘모바일 헬스’나, 인터넷 접속 기기 등의 툴을 활용, 월경이나 임신을 위한 활동, 임산부의 건강 등을 관리하는 기술을 말한다.
그러나 이에 준한 ‘맨테크’(Man Tech)란 말이 없듯이, ‘남성을 위한 디지털치료’란 개념은 없다. 그러나 유독 ‘여성’이나 ‘여성 질환’에 한정해서 붙인 용어란 점에서 ‘펨테크’는 오히려 여성 배제와 차별을 그 행간에 깔고 있는 단어로 해석될 수도 있다.
실제로 파이낸셜 타임스가 최근 보도에서 지적했듯이, 의사와 의료 전문가들이 사용하는 AI 도구는 매우 차별적이다. 그렇잖아도 전통적으로 소외되고 무시되어 온 사람들의 건강을 심대하게 악화시키고 있다.
미국 매사추세츠 공과대학교(MIT) 연구진의 최근 논문도 그런 점에서 화제가 되고 있다. 외신을 통해 보도된 바에 의하면, 오픈AI의 GPT-4와 메타의 라마 3를 포함한 대규모 언어 모델이 “여성 환자의 진료를 잘못 축소할 가능성이 더 높다”는 지적이다. 또 LLM은 여성이 남성보다 ‘집에서 자가 관리’를 좀더 자주 했다는 정보를 기반으로 임상 환경에서 더 적은 진료를 받았다고 한다.
물론 이런 모델이 굳이 ‘의료 환경’에서 사용하도록 설계된 것이 아니라, 그저 ‘일반적인 용도’로 사용되도록 설계되었다고 주장할 수도 있다. 그러나 이런 모델은 ‘팔미라 메드(Palmyra-Med)’라는 의료 중심 LLM 모델이며, 해당 논문에 따르면 일부 편향도 발견되었다.
런던 정치경제대학교의 실험 결과도 역시 남성 편향의 결과를 보여준다. 이 대학에서 구글의 LLM ‘Gemma’를 분석해본 결과, 남성에 비해 “여성의 요구가 축소된 결과를 도출”하는 것으로 나타났다.
이런 편향된 모습은 다양한 소외계층을 향하고 있다. 이전 연구에서도 AI모델들은 정신 건강 문제를 겪는 유색인종에게 “백인 모델에 대한 것과 동일한 수준의 연민”을 제공하는게 어렵다는 사실이 밝혀졌다. 백인 이외의 소외계층에 대해선 일말의 연민이 생기기 어렵다는 뜻이다.
작년에 의학저널 ‘랜싯’(The Lancet)에 발표된 논문에 따르면, 오픈AI의 GPT-4 모델은 정기적으로 “특정 인종, 민족, 성별에 대한 고정관념”이 형성된다. 그래서 질병의 증상이나 질환보다는 ‘인구통계학’적 특징에 더 중점을 둔 편향된 진단이나 조언을 제공한다. 이에 논문은 “모델이 작성한 평가나 계획은 인구통계학적 특성과, 더 비싼 시술에 대한 권고, 그리고 환자 인식이 서로 유의미한 연관성을 보였다”고 결론지었다.
이는 구글, 메타(Meta), 오픈AI와 같은 기업들이 병원과 의료 시설에 자사 도구를 도입하기 위해 경쟁하고 있는 상황에서 매우 민감한 문제다. 병원과 의료 시설은 거대하고 수익성이 높은 시장이지만, 이처럼 AI모델에 의한 잘못된 정보를 방치할 경우 심각한 결과를 초래하기도 한다.
올해 초 구글의 의료 AI 모델인 ‘메드-제미니’는 신체 부위를 합성, 화제를 모았다. 이는 웬만한 의료 종사자라면 금방 부정확하거나 틀린 점을 식별할 수 있다. 그러나 ‘편견’은 다르다. 뭣이 편견인지, 오판인지를 판단하기는 어렵지 않습니다. 하지만 편견은 더욱 눈에 띄지 않고 무의식적인 경우가 많다는 지적이다. AI 의료 도구의 편향된 습성과 여성이나 소외계층에 대한 차별이 더욱 심화될 수 밖에 없는 이유다.
