‘인간-인간’ 협업보다 ‘인간-AI’ 팀 ‘신뢰할 만한 에피소드’는 많아
‘인간’들, 주제 직관않는 대화 많아 vs ‘AI협업’ 오직 작업 관련 대화만
‘인간’들 협업 ‘광범위한 지식 섭렵’, ‘AI협업’ 최소한의 검토만으로 배포
‘깃허브’ PR불구, “AI 협업 코딩 빠르긴하지만 ‘위험’ 요소 많아” 지적

'2025 국제인공지능대전'에 참가한 업체 부스로서 본문과는 직접 관련은 없음. (사진=애플경제)
'2025 국제인공지능대전'에 참가한 업체 부스로서 본문과는 직접 관련은 없음. (사진=애플경제)

[애플경제 이윤순 기자] AI 비서와 함께 코딩 작업을 하는 개발자는 애초 동료 즉, 인간과 인간의 협업 못지않은 능률을 기할 수 있다. 특히 개발자들은 AI파트너의 결과물에 대해선 한층 긍정적인 평가를 내리는 경향이 두드러졌다.

이같은 이른바 ‘페어 프로그래밍’은 개발자 커뮤니티에서 이제 흔한 관행으로 자리잡았다. 심지어는 공식적인 패턴으로 자리잡고 있다. 이는 한층 고품질의 코드를 생성하고, 개발 시간을 단축하며, 지식을 전수하는 데 도움이 된다는 평가도 받는다.

그렇다보니 많은 개발자들은 최근 ‘걷고 말하는 코더’보다는 ‘코드 어시스턴트’와 함께 작업하고 있다. 이에 독일 자를란트 대학교 연구진은 동료 간, 즉 ‘인간과 인간의 협업’팀은 프로그래밍 작업을 수행하고, 다른 개별 개발자 그룹들은 ‘깃허브 코파일럿’의 도움을 받아 작업을 하는 실험을 시도했다.

독일 연구진, 400줄 코드베이스로 실험

해당 실험은 파이썬 코드와 주석을 포함, 약 400줄로 구성된 기존 코드베이스 내에 기능을 구현하는 것이었다. 이 코드베이스는 5개의 파일에 분산되어 있다.

연구진은 두 가지 과제를 규명하고자 했다. 우선 인간-인간 협업 프로그래밍과, 인간-AI 협업​ 프로그래밍 간에 지식 전달 에피소드의 빈도나, 길이, 깊이는 어느 정도 차이가 있는가? 하는 것이었다. 다음으론 ‘주제’ 유형과 ‘완료’ 유형을 포함한 지식 전달 에피소드의 질과 다양성은 두 그룹 간에 어떻게 다른가 하는 점이었다.

연구진은 음성 인식 도구를 사용, 두 사람 사이의 대화 ‘에피소드’를 추적하는 한편, ‘인간과 AI’ 간의 상호작용에 대해선 화면 녹화를 통해 추적했다. 이들 대화들을 ‘지식 전달 기여도’를 기준으로 분석했다. 이때 지식 전달과 관련된 ‘발화’는 두 사람 간, 또는 사람과 깃허브 코파일럿 간의 정보 교환을 포함한다.

그 결과 인간-인간 협업에선 210개의 에피소드가 생성되는 반면, 인간-AI 프로그래밍 세션에서는 126개의 에피소드가 생성되는 것을 발견했다. 즉, 인간-AI 팀에선 ‘코드’ 대화가 더 빈번한 반면, 인간들의 협업팀은 대화가 ‘곁길’로 새는 경우가 더 흔했다.

즉, ‘인간-AI’ 팀의 프로그래밍 세션에서 더 높은 수준의 ‘신뢰할 만한 에피소드’가 발견된 셈이다. 다만 “이런 패턴이 일반화된 상황으로 받아들여진다면, 또 다른 현실적 함의를 지니게 되므로 추가 연구가 필요한다”는게 연구진의 단서다. 그럼에도 “(인간-AI의) 이런 러한 빈번한 ‘신뢰 에피소드’는 심층 학습 기회를 감소시킬 수 있다”고 밝혔다.

‘인간’ 협업, 곁길 대화많지만…

또 한층 광범위하지만 주제와 관련된 ‘다른 대화’(곁길로 새는 대화)는 ‘인간-인간’ 협업팀에서 더 많이 발생하는 것으로 나타났다.

연구진은 또 “AI 사용이 효율성을 높일 수는 있지만, ‘인간-인간’ 협업 프로그래밍보다 뒤처지는 부분도 있다”고 했다. 즉 ‘인간-인간’ 협업팀은 (주제와 직접 관련없는) 부수적인 여러 대화를 통해 광범위하게 지식을 교환할 수 있다. 그러나 ‘인간-AI’ 팀은 그럴 가능성이 적다. 꼭 작업에 필요한 얘기만 나누는 것이다. 이는 결국 장기적으로 보면 효율성을 떨어뜨릴 수 있다는 결론이다.

이를 요약하면, 결국 AI는 (주제를 직관하지 않는) 부수적인 대화나 논의가 그다지 중요치않은 단순하고 반복적인 작업에 유용하다. 매우 심층적인 지식을 구축하는 데엔 적합지 않다는 얘기다.

AI코딩의 분위기를 전달하기 위한 이미지. (출처=언스플래쉬)
AI코딩의 분위기를 전달하기 위한 이미지. (출처=언스플래쉬)

또한 실험 결과 많은 ‘깃허브 코파일럿’ 세션에선 프로그래머들이 “코드가 의도한 대로 작동할 것”이라는 (안일한) 가정에 의존하기도 한다. 이에 AI어시스턴트의 작업 결과를 최고한의 검토만하고, 그대로 받아들이는 경향이 있는 것으로 나타났다.

그러나 ‘인간-인간’ 팀 역시 다양하고 임의로운 상호작용은 가능하지만 “주의가 산만해질 위험도 크다”는 지적이다. 이와 대조적으로 ‘인간-AI’, 즉 ‘깃허브 코파일럿’을 통한 지식 전달(작업)은 (몰입도가 높고) 중단될 가능성은 낮지만, 그 결과가 흔히 제대로 된 검토 없이 받아들여지는게 단점이다.

하지만 AI 어시스턴트는 ‘데이터베이스 변경 사항처럼 간과하기 쉬운’ 주요 세부 사항을 상기시키는 데 능숙했다. 이는 개발자들에게 경종을 울리는 것일 수도 있다. 연구진은 결론적으로 “AI로 코드를 생성할 경우 효율성 향상에 집중하기는 쉽다”며 “하지만 해당 코드는 프로덕션 환경에 적용하기 전에 검토와 테스트가 필요하다. 그렇지 않으면 문제가 발생할 수 있다.”고 경고했다.

‘AI협업’ 개발자들, 악성 패키지 추천, 검토없이 배포도

‘깃허브’는 지난주 최신 ‘Octoverse’ 보고서에서 자사 ‘코파일럿’의 유용함을 자랑스럽게 홍보했다. “신규 개발자의 80%가 이 기술을 활용하고 있다”는 주장이다. ‘코파일럿’을 비롯한 코딩 AI 어시스턴트는 개발자가 사용하는 언어에도 영향을 미치고 있다. 코드 생성 플랫폼에 적합한 더욱 강력한 타입을 가진 언어로 전환되고 있다. 하지만 문제점도 많다.

올해 초 ‘클라우드스미스’(Cloudsmith)가 실시한 연구에 따르면 코더(개발자)들은 LLM으로 생성된 코드의 위험성을 제대로 인지하지 못하고 있음을 보여준다. 예를 들어, 존재하지 않거나 심지어 악성 패키지를 추천하는 경우도 있다. 더욱이 개발자의 3분의 1은 검토 없이 AI로 생성된 코드를 배포하고 있어 큰 우려를 낳고 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지