AI 생성 소스코드 수정, 코딩, “보안, 성능 문제 많아”
‘클로드3.7소네트’는 안전과 품질 우수, 오픈AI 4o, 4.1 가장 뒤떨어져
보안업계 7개 LLM 비교 검증, “보안 강조 등 프롬프트도 중요”
[애플경제 전윤미 기자] AI 생성 코딩이 날로 확산되고 있는 가운데, 보안과 성능 분야에서 한계가 있다는 우려도 높다. 그럼에도 엔지니어가 직접 코딩을 하는 대신 대규모 언어 모델(LLM)에 프롬프트를 입력, AI가 생성한 소스 코드를 수정, 배포하는 ‘바이브 코딩’(Vibe Coding)이 추세로 자리잡고 있다. 그렇다면 어떤 AI모델을 사용하면, 개발자가 가장 우수하고 안전한 코드를 생성할 수 있을 것인가를 분석, 비교한 결과도 있어 눈길을 끈다.
그렇다면 LLM 중 아무 것이나 선택해도 모두 그런 바이브 코딩을 쉽고 월활하게 해낼 수 있을까. 전문가들은 그렇지 않다는게 중론이다. 실제로 해외에선 최근 7개의 대표적인 LLM을 서로 비교, 시험해본 결과, LLM마다 바이브 코징을 위한 성능이 꽤 큰 차이를 보인다는 재미있는 결과가 나와 주목된다.
바이브코딩, SW개발 최신 트렌드로
''데이터메이션'이 인용한 믿을만한 조사에 따르면 앤트로픽의 클로드(Claude) 3.7 소네트(Sonnet)가 바이브 코딩에서 가장 뛰어난 성능을 보이는 반면, 다른 모델들은 약간씩 우열이 엇갈린 결과를 나타낸 것으로 알려졌다.
애플리케이션 보안 회사인 백슬래시 시큐리티(Backslash Security)가 비교, 분석한 결과를 보면, 오픈AI의 GPT-4o, GPT-4.1이 성능과 보안 두 측면에서 가장 열등한 것으로 나타났다. 반면에 ‘클로드 3.7 소네트’가 모든 부문에서 가장 뛰어난 것으로 알려졌다.
이 회사는 분석에 앞서 “LLM이 소프트웨어를 생성하면서 프로그래머의 역할은 직접 코딩이 아니라 바이브 코딩으로 전환하고 있다.”면서 “바이브 코딩은 개발을 잘모르는 초보자도 소프트웨어 엔지니어링에 대한 훈련과 기술 없이 소프트웨어를 생산할 수 있게 해준다는게 통념”이라고 조사 배경을 설명했다.
바이브 코딩은 소프트웨어 개발의 최신 트렌드로 자리 잡았으며, 개발자들은 코드 생성을 자동화하기 위해 AI 도구 사용을 확대하고 있다. 하지만 새로운 연구에 따르면 바이브 코딩은 매우 불안정한 코드를 생성할 수 있으며, 개발자들이 이러한 추세에 적응하기 위한 최선의 LLM은 무엇인지가 관심거리가 되고 있다.
보안 강조 등 포괄적 프롬프트가 중요
이에 백슬래시 시큐리티는 오픈AI의 GPT, 앤트로픽의 클로드, 구글의 제미니 모델의 7가지 최신 버전을 테스트고 코드의 보안성을 조사했다.
연구진은 ‘순수한’ 프롬프트부터 ‘포괄적인’ 프롬프트까지 세 가지 단계의 프롬프트 기법을 사용하여, ‘피드백을 위한 댓글 섹션 추가’와 같은 일상적인 사용 사례에 대한 코드를 생성했다. 그런 다음 연구진은 코드 출력의 복원력을 10가지 ‘공통 취약점 열거’(CWE) 사용 사례에 대해 테스트했다.
그 결과 ‘순수한’ 프롬프트는 LLM에게 보안 요구 사항을 명시하지 않고, 특정 애플리케이션에 대한 코드를 생성하도록 요청했다. 연구 결과에 따르면 이러한 모든 프롬프트는 안전하지 않은 코드를 생성했으며, 10가지 일반적인 취약점(CWE) 중 최소 4가지에 취약했다.
그저 막연하게 보안 필요성을 명시한 프롬프트는 더 안전한 결과를 생성했다. 반면에 국제 기준인 OWASP(Open Web Application Security Project) 모범 사례를 분명히 하면서 이를 준수하는 코드를 요청한 프롬프트는 더 나은 성과를 보였다. 그럼에도 불구하고, 테스트된 7개의 LLM 중 5개는 이러한 프롬프트에서 여전히 코드 취약점을 발견했다.
백슬래시 시큐리티의 공동 창립자이자 CTO인 요시 픽은 IT프로에 “보안 팀에게 AI가 생성한 코드, 즉 바이브 코딩(의 취약성)은 악몽처럼 느껴질 수 있다.”면서 “새로운 코드가 홍수처럼 쏟아지고 환각이나 프롬프트 민감성과 같은 LLM 위험을 초래되고 있다”고 지적했다.
GPT-4o ‘10점 만점의 1점’, 클로드 ‘10점 만점’
이에 따르면 전반적으로 오픈AI의 GPT-4o가 모든 수준에서 가장 낮은 성능을 보였다. 일반적인, ‘순수한’ 프롬프트를 사용한 보안 코드 결과에선 10점 만점에 1점을 받았다. 이는 또한 보안 코드 생성을 요청했음에도, 10가지 문제 중 8가지에 취약한 결과를 생성했다.
GPT-4.1은 나이브 프롬프트에서 10점 만점에 1.5점을 기록하며 약간 더 나은 성능을 보였다.
이에 비해 클로드 3.7 소네트는 ‘바이브 코딩’에 가장 적합한 도구로 나타났다. 특히, 클로드 3.7 소네트는 ‘순수한’ 프롬프트에 대해 10점 만점에 6점, ‘보안’ 중심 프롬프트에서 10점 만점에 10점을 기록하며 가장 좋은 성능을 보였다.
연구원들은 이를 근거로 “전반적으로 모든 프롬프트에 보안 고려 사항을 포함하지 않는 개발자는 40%~90%의 확률로 안전하지 않고 취약한 코드를 받게 될 것”으로 우려했다. 연구원들은 이에 “‘바이브 코딩’과 AI 코드 지원 도구의 보안 코딩 결과, 성숙도 측면에서 아직 초기 단계임을 보여준다”고 결론지었다.
기술매체 '아즈 테크니카'는 "문제는 개발자들이 필히 ‘보안’을 강조하거나, 가장 효과적인 방식으로 작동하길 프롬프트하도록 기대할 수는 없다는 점"이라며 "개발자들은 아직 프롬프트 엔지니어링을 배우고 있는 경우가 많은 실정"이라고 지적했다. 이들 대부분은 보안 전문가는커녕 보안 프롬프트 전문가가 되기를 기대하지도 않고 있는 실정이다.
AI 코드 생성 유행 ‘우려는 여전’
애초 AI 생성 코드에 대한 우려는 그 동안 증폭되어 왔다. 그러나 (편의를 중시하는) 개발자와, 보안 담당자 모두 엇갈린 결과를 보고하고 있다.
작년 9월 사이버 보안 회사 베나피(Venafi)도 나름의 조사 분석을 통해 “영국, 미국, 독일의 거의 모든 보안 책임자가 AI 생성 코드가 보안 침해로 이어질 수 있다”는 우려를 표명했다. 특히, 보안 책임자의 92%가 생성 AI로 생성된 코드의 무결성과, AI 도구 사용 시 감독 부족에 의문을 제기했다.
이러한 우려에도 불구하고 AI 생성 코드는 기업 개발 관행에서 점점 더 보편화되고 있습니다. 응답자의 83% 이상이 이미 AI를 사용하여 코드를 생성하고 있다고 답했으며, 절반 이상(57%)은 코딩에 AI를 사용하는 것이 표준 관행이 되고 있다고 답했다.
그럼에도 구글을 포함한 일부 주요 업계 관계자들은 AI 코드 생성의 잠재력에 대해 낙관적인 전망을 내놓고 있다. 작년 11월, 순다르 피차이는 “구글 내부 소스 코드의 25%가 현재 AI로 생성되었다”고 밝혔다. 당시 피차이는 “AI를 활용해 생성된 모든 코드는 여전히 엄격한 인간의 승인을 받아야 한다”면서도 “구글이 생산성을 개선하고 효율성을 높이기 위해 개발팀에서 AI 활용을 늘리고 있다”고 전했다.
