‘환자 증상․징후 자동 분류, 병변 조기 탐지’ 등 장점 주장
‘부정확, 편견, 사고 위험성, 복잡한 문의나 응급상황 대처 불가’ 반론도
개인정보보호․보안 문제도…“지속적 기술 개선과 연구 필요”

GPT-4 이미지. (출처=오픈AI)
GPT-4 이미지. (출처=오픈AI)

[애플경제 전윤미 기자] 생성AI를 진료와 치료, 검사 등 의료 분야에 본격적으로 도입하려는 움직임이 일고 있다. 그런 이에 대해 “아직은 모든 결과물이 부정확하고 사고 위험성도 많아서 시기 상조”라는 주장이 만만찮다. 반면에 “나름대로 임상 워크플로우가 줄어들고, 발견하기 힘든 병변을 조기에 탐지하는 등 이점도 많다”며 본격적인 도입에 찬성하는 의견도 적지않아 논쟁이 계속되고 있다.

클라우드 ‘빅3’, 의료와 생성AI 접목 앞장

‘테크크런치’ 등에 의하면 생성AI와 의료의 접목은 특히 세계 클라우드 빅3가 가장 먼저 서두르고 있다. 이미 구글 클라우드는 미국의 하이마크 헬스와 함께 “환자 수용 경험을 개인화하도록 설계된 생성 AI 도구”를 개발하고 있다. 아마존의 AWS 역시 생성 AI를 사용, “건강의 사회적 결정 요인에 대한 의료 데이터베이스를 분석하는 방법”에 대한 임상 연구를 진행하고 있다.

마이크로소프트 애저 또한 비영리 의료 네트워크인 프로비던스(Providence)가 생성AI 시스템을 구축, 의료진이 환자의 증상이나 징후를 자동으로 분류하는 데 도움을 주고 있다는 얘기다.

의료 분야의 유명한 생성AI 스타트업인 앰비언스 헬스케어는 아예 임상의를 위한 생성AI 앱을 개발하고 있다. 의료인들을 위한 주변 AI 도우미 ‘나블라’(Nabla), 의료 문서용 분석 도구인 ‘앱브리지’(Abridge) 등을 만들고 있다.

그런 가운데 의료 분야를 위한 생성AI에 대한 투자도 활발하다. 테크크런치는 “현재까지 벤처 캐피털에서 수천만 달러를 조달했으며, 대다수의 의료 투자자는 생성적AI가 투자 붐을 일으키는데 큰 영향을 미쳤다”고 했다.

많은 전문가들, “아직은 생성AI, 의료에 적용 어려워”

그러나 과연 생성AI가 의료 분야에 본격적으로 적용될 수 있을까에 대해선 전문가나 환자, 의료인마다 의견이 엇갈린다.

생성 AI의 주요 문제 중 하나는 환자들의 다양한 문의나, 응급 상황에 제대로 대처할 수 없다는 점이다. 또한 생성AI 자체가 아직은 최신 임상 정보나 충분한 의료 지식이 학습되지 않았다. 그래서 포괄적인 의학적 조언이나 치료 권장 사항을 제공하기엔 부적합하다는 지적이다.

실제로 ‘JAMA Pediatrics 저널’에 게재된 논문에선 일부 의료 기관이 제한된 범위에서 시험해 본 챗GPT는 소아 질병 진단에서 83%의 오류를 범하는 것으로 나타났다. 또한 오픈AI의 GPT-4를 진단 보조 도구로 테스트한 결과도 마찬가지다. 당시 미국 보스턴의 ‘Beth Israel Deaconess Medical Center’ 의사들은 이 모델이 2번이나 잘못된 진단을 답변으로 내놓았다고 지적했다. 생성AI는 또 임상의의 중요 업무이기도 한 의료 행정 업무에도 아직은 서투르다. 환자 건강 기록 요약이나 메모 검색과 같은 작업에 대한 평가하기 위한 ‘MedAlign 벤치마크’에서 GPT-4는 실패나 오류 비율이 35%나 되었다.

오픈AI를 비롯한 생성AI 공급업체들 역시 의료용일 경우, 자사 모델에 의존하지 말라고 주의를 당부하기까지 했다. 또 다른 전문가들은 “의료 분야에서 생성 AI에만 의존하면 오진이나, 부적절한 치료, 심지어 생명을 위협하는 상황으로 이어질 수 있다.”고 경고하기도 한다.

“생성AI, 인종 등 편견 심해, 심지어 생명 위협도”

환자를 위한 최신 치료 기술을 연구하는 독일 뒤스부르크-에센 대학의 AI 의학 연구소 역시 “의료 분야에서 생성 AI를 사용하는 유일한 안전한 방법은 의사의 세심한 관찰”이라고 짚었다. 즉, 생성AI만으론 결과가 완전히 틀릴 수 있기 때문이다.

생성적 AI는 또 고정관념을 영속시킬 수도 있다는 지적이다. 실제로 ‘스탠포드 메디슨’은 신장 기능, 폐활량 및 피부 두께에 대한 질문에 대해 챗GPT 등 생성 AI 기반 챗봇을 테스트했다. 그 결과 “챗GPT의 답변이 자주 틀린 경우가 많을 뿐만 아니라 흑인과 백인 사이에 생물학적 차이가 있다는, 오랫동안 지속되어 온 몇 가지 강화된 ‘가짜 믿음’이 포함되어 있다”고 밝혔다.

더욱이 아이러니컬한 점은 딜로이트 설문조사에서 드러났다. 즉 “의료용 생성 AI로 인해 차별을 받을 가능성이 가장 높은 환자가 이에 대한 의존도가 높다”는 점이다. 의료 혜택이 부족한 사람들(대체로 유색인종)은 의사를 찾거나 정신 건강 지원과 같은 일을 위해 생성 AI를 시도할 의향이 더 많은 것으로 나타났다.

(사진=바이오솔루션)
(사진=바이오솔루션)

“생성AI 기술 빠르게 개선, 도입해도 무방”

이와는 반대로 일부 전문가들은 생성 AI가 많이 개선되고 있다고 주장하기도 한다. 지난해 발표된 마이크로소프트 연구에 따르면 “GPT-4를 사용한 4가지 까다로운 의료 벤치마크에서 90.2%의 정확도를 달성했다”는 것이다. 또 GPT-4가 특정 결과를 생성하도록 프롬프트 엔지니어링을 통해 모델 점수를 최대 16.2% 포인트까지 높일 수 있었다고 한다.

또한 질문을 통한 프롬프트 뿐 아니라, 의료 영상을 통해 생성 AI의 이점을 크게 기대할 수 있다는 주장이다. 지난해 7월, 한 과학자 그룹은 ‘네이처’(Nature)지에 발표된 연구에서 ‘CoDoC’(상보성 중심 임상 작업 흐름 연기)라는 시스템을 공개했다. 이 시스템은 의료 영상 전문가가 진단을 위해 기존 기술과 비교, AI에 의존해야 하는 경우를 파악하도록 설계되었다. “‘CoDoC’는 임상 워크플로우를 66%나 줄이면서 전문가보다 더 나은 성과를 거두었다”는 것이다.

지난 11월 중국의 한 연구팀은 엑스레이를 통해 잠재적인 췌장 병변을 탐지하는 데 사용되는 AI 모델인 판다(Panda)를 시연했다. 한 연구에 따르면 팬더는 수술을 하기에는 너무 늦게 발견되는 경우가 많은 병변을 매우 정확하게 분류하는 것으로 나타났다.

그래서 옥스퍼드 대학교의 임상 연구원인 아룬 티루나부카라수는 “생성 AI가 의료 환경에 배치되는 것을 방해하는 ‘독특한 것’은 없다”고 테크크런치에 밝혔다. 그는 “조만간 생성 AI 기술의 상용화를 통해 텍스트 수정이나, 메모와 편지의 자동 문서화, 전자 환자 기록을 최적화하기 위한 향상된 검색 기능 등이 가능할 것”이라고 장점을 강조했다.

“기술적 한계, 제도 극복해야”

그럼에도 불구하고 많은 전문가들은 “생성AI가 만능 보조 의료 도구로서 유용하고 신뢰할 수 있으려면 극복해야 하는 기술적 한계나 규정이 있다”고 짚었다. 특히 의료 분야에서 생성AI를 사용할 경우 개인 정보 보호나 보안 문제를 해소해야 한다는 지적이다.

또 의료 데이터의 민감한 특성을 고려해야 하고, 오용이나 무단 액세스로 인한 환자의 기밀 누설 등 의료 시스템의 신뢰에 심각한 위험을 초래할 우려도 크다. 더욱이, 의료 분야에서 생성AI 사용을 둘러싼 규제와 법적 환경은 여전히 변화하고 있다. 또 “안전과 보안의 책임, 데이터 보호, 그리고 인간(의료인)이 아닌 물체(생성AI)의 의료 행위에 관한 질문은 여전히 해결되어야 할 문제”라는 지적이다.

키워드

#의료 #생성AI
저작권자 © 애플경제 무단전재 및 재배포 금지