“인간 개입 없는 완전한 AI엔지니어, 아직은 먼길”

최근 세계 최초 AI SW엔지니어 ‘데빈’ 실험 결과 ‘낙제점’ 지난 12월 등장, “인간 개입없는 순수 AI엔지니어” 기대 한 몸에 엔지니어 플랫폼 실제 작동 “인간 몇 시간 작업, 며칠씩 걸리기도”

2025-02-05     전윤미 기자
'AI엑스포코리아'에 참여한 업체로서 본문과는 직접 관련이 없음. (출처=애플경제)

[애플경제 전윤미 기자] 지난해 12월 실리콘밸리의 유명 SW기업 ‘코그니션AI’(Cognition AI)가 개발한 세계 최초의 AI 소프트웨어 엔지니어 ‘데빈’(Devin)이 큰 관심을 불러일으킨 바 있다. 그로 인해 SW엔지니어 분야에서 인간을 배제하고, 본격적인 AI 빌드업 시대가 오는 것 아니냐는 관측이 유력해지기도 했다. 실제로 지금도 SW엔지니어 분야에서 곧 AI가 인간을 배제하는 것이 기정사실하되고 있다.

이는 국내 SW업계에서도 이는 ‘빅뉴스’였다. 그러나 그런 기대를 모았던 ‘데빈’이 정작 인간 엔지니어 역량에 비해선 한참 뒤진다는 평가가 최근 줄을 잇고 있어 눈길을 끈다.

출시 당시 “수천개 복잡한 엔지니어링 신속 해결” 홍보

본래 ‘코그니션AI’는 이를 출시할 때만 해도 “복잡한 엔지니어링 작업을 수천 개의 결정을 내리며 수행할 수 있고, 사용자와 협력해 실시간으로 진행 상황을 보고하고, 피드백을 받으며 디자인 선택을 함께 할 수 있다.”고 과시했다. 또한 “생소한 기술을 배우고, 앱을 빌드하고 배포하며, 코드베이스에서 버그를 찾아 수정하고, 자체 AI 모델을 훈련하고 세부 조정할 수 있다.”고 소개했다. 결론적으로 “기존 AI모델에 비해 압도적인 프로그래밍 문제해결능력을 가지고 있다”는 주장이었다.

애초 이는 중간 수준의 숙련도를 지닌 인간 소프트웨어 엔지니어를 대체할 것으로 기대되었다. 그러나 최근 실리콘밸리의 프리랜서 엔지니어 플랫폼이 이를 지난 한 달 간 본격적으로시현해본 결과 기대에 크게 못미쳤다는 평가다. 현지의 엔지니어 플랫폼 ‘유워크’(Uwork)가 자체 블로그와 일부 기술매체를 통해 알려진 바에 의하면, 이는 “엔지니어링 작업을 엉망으로 만들고 인간 근로자와 경쟁하기엔 턱없이 부족하다”는 지적이다.

이에 따르면 ‘데빈’은 20개의 코딩 작업을 맡았지만, 예상보다 오래 걸렸고 ‘이상한’ 작업 과정을 거쳐 겨우 3개만 완료했다. 이는 매월 약 500달러의 비용이 드는 AI 어시스턴트다. 슬랙(Slack)을 통해 작동하므로 마치 동료와 채팅하는 것처럼 느껴진다.

그러나 해당 플랫폼이 프리랜서들의 구직 테스트에 활용될 ‘데모’를 제시한 결과, 만족할 만한 결과를 수행할 수 없었다는 평가다. 실제로 데빈의 작업 결과를 숙련된 AI 연구원들이 평가해본 결과도 ‘낙제’ 수준이었다.

현지의 소프트웨어 개발자들은 자신들이 개발한 SW를 영상으로 제시, ‘데빈’의 결과물과 비교하며 그 품질을 지적하기도 했다. 이들은 “‘코그니션AI’가 ‘데빈’의 성능에 대한 진실을 말하지 않는다”면서 ‘“데빈이이 무엇을 해야 했고, 대신 실제로 무엇을 했는지, 그리고 얼마나 형편없는 일을 했는지를 밝혀야 한다”고 지적했다.

이에 따르면 사람이 직접 SW를 개발하는데 36분이 걸린데 비해, 데빈은 무려 6시간이나 걸렸다고 했다.

이와 비슷한 실험은 ‘Answer.AI’라는 또 다른 회사 연구원들에 의해 이뤄졌다. 그 결과 ‘코그니션AI’가 원래 주장한 성능보다 형편없는 것으로 나왔다. 앞서의 ‘Uwork’ 플랫폼에서 이뤄진 성능평가 결과가 반복된 것이다. 이 역시 정해진 시간에 20개 작업 중 3개만 달성했다.

다만 데빈은 ‘놀라운 능력’이 있긴 했다. 노션(Notion) 데이터베이스를 구글 시트로 끌어올 수 있었으며, 몇 분간 인간과의 상호 작용으로 한 시간 만에 작업을 완료했다. 그럼에도 코드는 작동했지만 약간 장황했다. 이에 대해 “평소 개발자들이 시간을 많이 소모하는 ‘접착 코드’ 작업을 처리할 수 있다”는 평가와 함께 “그러나 더 복잡한 작업은 어려움을 겪기 시작했거나, 테스트 범위를 넓힐수록 균열과 오류 등이 나타났다.”는 것이다.

(사진=게티이미지)

실험 결과 20개 작업 중 3개만 겨우 해내

더욱이 간단해 보이는 작업을 두고도 종종 몇 시간이 아니라 며칠이 걸리기도 했다. 또 기술적으로 이해가 안 가는 대목에 갇히거나, 지나치게 복잡하고 사용할 수 없는 솔루션을 만들어내곤 했다는 것이다. “더욱 우려되는 것은 ‘데빈’이 실제로 가능하지 않은 작업을 계속 진행하려는 경향”이라고 했다.

한 달 이상 동안 개발자들은 ‘데빈’에게 처음부터 새 프로젝트를 만들고, 연구를 수행하고, 기존 프로젝트를 분석하거나 수정하도록 했지만 신통치 않았따. 제시한 작업 과제 20개 중에서 성공한 것은 겨우 3개뿐이었다.

이에 개발자들은 “가장 실망스러운 측면은 ‘실패’ 자체가 아니었다. 모든 도구에는 한계가 있기 마련이다. 다만 이러한 오류를 바로잡기 위해 (인간 작업자들을 포함해) 얼마나 많은 시간을 보냈는가 하는 것”이라고 지적했다.

애초 지난해 12월 ‘데빈’이 본격적인 AI 어시스턴트로 공개되었을 때만 해도 기대가 컸다. ‘코그니션AI’ 웹사이트의 블로그 게시물에서는 “Devin이 소프트웨어 엔지니어를 위한 기본 작업을 맡아서 엔지니어가 더 큰 문제에 집중할 수 있도록 할 수 있다”고 홍보했다.

즉 “버그를 찾아 수정하고, 전체 앱을 처음부터 끝까지 빌드하고 배포하고, 심지어 AI 모델을 훈련하고 미세 조정할 수도 있다”면서 “장기적 추론과 계획의 발전으로 Devin은 수천 개의 결정이 필요한 복잡한 엔지니어링 작업을 계획하고 실행할 수 있다.”고 주장했다.

특히 “모든 단계에서 관련 맥락을 회상하고, 시간이 지남에 따라 학습하고, 실수를 수정할 수 있다”고도 했다.

그러나 이같은 실망스런 결과가 공개되면서 최초의 AI 소프트웨어 엔지니어에 대한 기대가 물거품이 될 것이란 예측이다. 이에 ‘코그니션AI’는 “우선 간단한 버그와 같은 작은 작업부터 시작하는 것이 좋다. 특히, 작업을 ‘데빈’에게 맡기되, (사람이) 자체 작업을 테스트하거나 확인하는 방법을 알려주면 가장 잘 작동한다”고 해명했다. 사실상 완전한 AI 엔지니어로서 한계가 있음을 인정한 셈이다.