챗GPT, “아직 분석 ‘보고서’ 작성도 불가능한 수준”
엉터리 결과물 많아…사용자들, “기껏 목차, 개요 작성 수준” 교통연구원, 현업 종사자들 설문조사, “프로그래밍, 영어번역 정도” “자료 요약, 문헌 연구 검토, 전략 수립 등은 ‘인간의 몫”
[애플경제 전윤미 기자] 챗GPT 사용자들은 주로 프로그래밍과 영어 번역에 이를 많이 활용하는 것으로 드러났다. 또 그 효용성 역시 이들 두 분야에서 가장 기대할 만한 결과물을 얻어낼 수 있는 것으로 알려졌다. 이 밖에 기사 작성이나 보고서 작성에도 많이 활용하고 있지만, 그 결과물의 품질은 상대적으로 떨어지며, 사용자들의 기대에 못미친다는 평가다. 특히 질문을 어떻게 하느냐에 따라 챗GPT가 내놓는 응답 역시 수준과 품질이 크게 달라진다.
최근 이에 관한 설문조사를 한 바 있는 한국교통연구원은 이에 대해 “챗GPT의 다양한 기능 중에서 공통적인 1순위 활용 분야는 프로그래밍 기능이었으며, 영어 번역 기능의 활용도가 2순위로 높게 나타났다.”며 “이러한 결과는 챗GPT가 갖고 정보의 정확성이나 저작권 침해 가능성 등의 한계때문”이라고 해석했다.
연구원은 설문조사를 토대로 한 연구보고서에서 “상대적으로 프로그래밍이나 번역 기능 활용에서는 그런 우려가 없다는 점에서 이같은 결과가 나타난 것”이라고 덧붙였다.
“고도의 주관적 판단과 평가는 할 수없어”
여기엔 제미니, 라마2 등의 유사한 생성AI 챗봇은 일단 평가 대상이 아니다. 가장 먼저 등장한 챗GPT를 대상으로 그 활용도와 품질을 가늠한 것이다.
구체적으로 보면, 챗GPT 활용도와 품질을 백분율로 표시할 경우, 1순위 프로그래밍이 100.0%라면, 2순위 영어번역은 87.0%, 3순위 보고서 작성은 66.1%, 4순위 기사 작성은 50.4%), 5순위 기타 7.8%로 도출되었다. 여기서 기타 항목으로는 자료 요약, 블로그 포스팅, 관련 문헌 및 연구 검토, 현황 조사 등으로 나타났다.
보고서, 기사작성, 연구 검토 등과 같이 비교적 고도의 주관적 판단과 분석이 필요한 분야에선 아직 챗GPT가 미흡한 점이 많음을 알 수 있게 한다.
연구원의 분석 결과에서도 챗GPT의 다양한 기능 중에서 공통 1순위 활용 분야는 프로그래밍 기능이고, 그 뒤를 영어 번역 기능이 따르고 있다. 둘다 정해진 ‘툴’에 의하거나, 사전적 해석 정도에 의존해도 무방한 분야인 셈이다. 또 “상대적으로 프로그래밍 및 번역 기능의 활용에서는 정보의 정확성 논란이나 저작권 침해 시비의 가능성이 적은 점도 작용한 것”이란 설명이다.
“질문을 어떻게 하느냐에 따라 답변 수준 달라져”
또한 흥미로운 점은 챗GPT에 대한 질문을 어떻게 하느냐에 따라 응답 내지 결과물도 크게 달라진다는 사실이다.
일단 연구원은 질문 종류를 7가지 ‘경우의 수’에 따라 구분했다. 즉 ▲ 단일한 주제의 단순 키워드, ▲2개 주제의 복합 키워드, ▲동일한 의미의 다른 키워드, ▲단문의 질문 ▲장문의 질문 ▲긍정형 질문 ▲부정형 질문 등으로 챗GPT에 질문했다.
그 결과 장문으로 질문했을 때 가장 만족할 만한 답변이 나왔다. 그 다음으로 단문으로 질문했을 때의 정확도나 만족도가 높았고, 키워드로 질문할 때는 그 보다 낮았다. 또 긍정형으로 질문했을 때나, 부정형 문장으로 질문했을 때 모두 만족도나 정확도는 같았다.
이에 비해 장문으로 물을 때와 단문으로 질문할 때의 차이는 컸다. 실제 체험자들을 대상으로 설문조사에서도 양자의 차별성에 대해 80%가 ‘크다’고 대답했다. 반면에 긍정적 문장과 부정적 문장으로 물었을때의 결과물에 대해선 “차이가 없다”는 대답이 68%에 달해 양자의 차별성은 거의 없는 것으로 나타났다.
이를 두고 보면, 챗GPT에 관한 질문이 구체적이고 길수록, 그 답변 수준과 정확도, 품질이 높아지는 셈이다. 그러나, 긍정형이든 부정형 질문이든, 어투나 말본새에 따른 답변 차이는 거의 없은 것으로 나타났다.
또한 눈길을 끄는 것은 보고서와 챗GPT의 활용성이다. 흔히 많은 기업체나 직장에선 챗GPT가 등장했을 무렵, “보고서 작성 시간을 크게 줄이고, 효율성을 높일 것”이란 기대가 많았다. 그러나 실제 분석해본 결과, 복잡한 보고서를 작성하는데엔 챗GPT가 그다지 도움이 못된다는 결과가 나왔다.
즉, 보고서 목차와 같은 기본 골격이나 틀을 잡는데는 다소 도움이 되지만, 정작 복잡한 분석과 평가, 전망 등을 인공지능에 맡기는 것은 아직 시기상조인 셈이다. 교통연구원은 이를 위해 보고서들의 공통적인 기본 구조인 ‘개요’, ‘현황’, ‘방법론’, ‘결과’ 등 세분화된 기능별로 그 유용성을 분석해 눈길을 끈다.
사용자들, 보고서 ‘개요’, ‘목차’ 작성에 많이 활용
이에 따르면 많은 사용자들은 보고서 ‘개요’를 작성하는데 챗GPT를 활용하는 경우가 가장 많았다. 그 다음으로 ‘전망’을 작성하는데도 비교적 많이 쓰이는 것으로 나타났다. 그러나 현황분석이나 분석방법론 등은 “그다지 효용성이 없다”는 사용자들이 많았다.
즉 보고서 작성과정에서 주제와 관련된 영감을 얻거나, 작성 방향을 설정하기 위하여 개요나 전망 등을 확인하고 목차를 구성하는 데에는 챗GPT의 답변이 참고할 만하다. 그러나 ‘분석’이나 그 방법론에 들어가선 챗GPT 답변의 수준이 낮고, 그 활용도도 낮은 것으로 나타났다. 이는 앞서 챗GPT의 활용분야와 유용성이 높은 분야가 단순 작업에 가까운 프로그래밍과 영어 번역인 점과도 일맥상통하는 대목이다.
복잡한 분석이나 평가, 전략적 판단처럼 사고 내지 사유가 필요한 매목에선 챗GPT가 사용자를 대신하기엔 아직 무리라는 평가다. 이는 여전히 ‘인간의 몫’인 셈이다.
그런 점에서 챗GPT의 쓰임새에 대한 교통연구원의 종합 평가는 눈여겨볼 만하다. 즉 “챗GPT의 저작권 침해 등 윤리적 문제로 한계가 있으므로, 업무나 연구의 보조 역할인 프로그
래밍, 영어 번역, 문헌 검토, 현황 조사 등의 방식으로 활용할 수 있는 수준”이라며 “구체적인 질문을 하지 않으면, 챗GPT의 답변 수준은 그저 일반인들의 상식적 수준이며, 답변의 출처도 불명확하다”고 평가했다. 또한 “질문을 좀 바꿔 답변 내용을 재확인하면, 챗GPT의 답변은 즉각 수정되기 일쑤여서, 신뢰수준과 활용도가 아직은 낮다는게 많은 사용자들의 의견”이라고 결론지었다.