광범위한 범용 LLM 대신 업종과 업무 맞춤형 sLM 기반 AI 확산
분야별 깊이있는 전문 데이터 중요, ‘추론·평가·글로벌 능력’도 필수
후발경쟁국, 美빅테크에 맞선 AI경쟁력 확보 대안, 국내서도 날로 발달
[애플경제 전윤미 기자] 방대한 데이터와 엄청난 비용이 들어가는 LLM이 아닌, 특정 업종이나 회사 업무에 적합한 sLM이 좀더 실용적인 차원에서 날로 확산되고 있다. LLM이 전문지식뿐 아니라 범용의 폭넓은 정보를 전달하기 위한 수평적(Horizontal) AI라면, sLM 위주의 특정 용도를 겨냥한 맞춤형 AI는 이른바 수직적(Vertical) AI라고 할 수 있다. 앞으로 버티칼AI는 우리나라 등 AI후발국으로선 글로벌 빅테크에 맞서 경쟁력을 키울 수 있는 대안으로 제시되고 있다.
그러나 이를 위해선 고품질의 데이터셋, 그리고 각 전문분야에 걸맞은 깊이있는 정보와 지식이 뒷받침돼야 하는 등 과제도 많다는 지적이다. 이에 한국지능정보원은 최근 연구보고서에서 “수직적(Vertical) AI를 위한 도메인 심층 특화데이터를 구축함으로써 sLLM과 서비스 모델을 개발해야 한다”면서 “그간 LLM 학습에 초점을 둔 데이터를 구축했으나, 최근 LLM 시장은 글로벌 빅테크 기업과의 기술격차만 오히려 커지고 있다”고 그 필요성을 강조했다. 이 기관의 추지혜 선임연구원과 주정훈 연구원 등은 “의료, 법률, 금융 등 산업별 기준 데이터가 공백인 영역을 대상으로 데이터를 구축하고, 이를 통해 국내 중소·스타트업이 AI 시장에서 경쟁력을 확보해야 한다”고 덧붙였다.
sLM 기반 버티컬AI, ‘생존률도 길어’
버티컬AI는 특정 산업에 전문적이고 맞춤화되도록 sLM 모델 등을 개발하는 것이다. 현재 대부분의 국내외 스타트업들도 버티컬AI 기술에 치중하고 있다. 이는 특정 산업에서 요구되는 기술을 개발하기 때문에 상업적으로 연결되기 쉬우며 생존율이 높은 편이다.
그러나 버티컬 AI가 그 효율성을 발휘하려면 각 산업 분야별로 성능을 고도화할 수 있도록 특화된 데이터셋을 구축할 필요가 있다. 각 산업별로 고유한 요구사항과 특성을 반영하고, 데이터의 정확성과 품질을 높이도록 해야 한다는 주문이다. “이는 AI 모델의 신뢰성을 확보하는 중요한 요소”라는 평가다.
실제로 한국지능정보원에 따르면 현장에선 이같은 sLM 내지 버티컬AI의 필요·충분조건을 갖추지 못해 실패하는 경우가 적지 않다. 예를 들어 A회계기업은 자사 보유 데이터를 오픈소스 AI모델에 학습시켜 회계AI서비스를 개발했다. 그러나 성능이 미흡해서, 이를 보완하려했으나, 회계AI 성능개선을 위해서는 회계기준 등 배경지식에 관한 데이터 학습이 필요했닥다. 그러나 그런 방대한 회계기준을 데이터화하는 비용이 부담되어 결국 계획을 포기하고 말았다.
현장의 성공과 실패 사례
이와는 달리 B헬스케어 기업은 비교적 소기의 성과를 기한 사례다. 이 회사는 학술자료·데이터를 바탕으로 증상에 따른 관련 질환과 이에 맞는 병원과 진료과목을 소개하는 솔루션을 개발했다. 이 과정에서 병원과 진료과목 안내를 위해 병의원데이터를 공공데이터포털에서 확보하고, 각 병원 전문인력(전공·경력 등)사항, 의료시설·장비 데이터를 각 병원에 협조를 구하고 있는 단계다. 또 B 뷰티 기업은 기존에 확보된 데이터셋과 국내외 판로를 기반으로 성장세를 이어가고 있으나, 소비자 감정 리뷰, 화장품 성분 등 데이터셋이 공백상태다. 이에 AI 허브를 통해 K-뷰티 고객의 취향을 반영할 수 있는 데이터 등 해외 소비자 공략용 데이터셋을 확보했다.
이처럼 AI시스템의 품질은 학습용 데이터에 크게 의존한다. 버티컬 AI와 같은 특정 분야에 특화된 AI 모델 구축을 위해선 특화 데이터셋과 함께 해당 분야의 심층 데이터가 필수적이란 지적이다.
특히 “LLM은 단어 간 연관성·문맥 파악이 탁월해서 분류· 생성에는 적합하나 논리적 사고가 필요한 추론은 다소 제한적”이라며 “(버티컬AI는) 인간 수준의 AI 시대가 다가옴에 따라 AI 모델의 품질·성능 강화를 지원하기 위한 신뢰성·추론용 등 심층데이터를 구축하는게 관건”이란 설명이다.
품질·성능강화 위한 심층데이터 구축 중요
예를 들어 AI가 학습되지 않은 질문에 대해서도 인과관계, 모방, 문맥파악 등을 통해 추론, 도출할 수 있도록 AI 성능을 강화해야 한다는 주문이다. 여기서 추론은 전제와 가설로 이루어진 문장을 쌍으로 구성, 주어진 전제를 바탕으로 가설의 참과 거짓 여부를 가려내는 것이다. 또 AI 환각 문제를 해결하고, 윤리성, 규범성 등 AI 안전을 위한 버티컬AI ‘벤치마크 데이터’, 즉 평가 데이터를 구축하는 것도 중요하다. 즉 “AI 성능을 파악하고 품질을 평가하는 데이터셋으로 질문과 선택지로 구성된 일종의 객관식 시험지와 같다”는 얘기다.
이 밖에도 세계 각국의 문화별·국가별로 고유한 특색을 갖는 규범·문화·관습·예절 등 데이터셋을 구축하는 것도 중요하다. 이를 통해 국내 버티컬AI의 품질을 높이며, 각 산업마다 경쟁력을 높여갈 필요가 있다는 주문이다. 특히 “현행 LLM은 보편적인 가치에 대한 답변은 잘 표현하는 반면, 고유한 특색을 갖는 문화·관습· 규범·예절 등에는 한계를 지니고 있다”는 점도 버티컬AI가 눈여겨볼 대목으로 꼽힌다.
현재 버티컬AI는 국·내외적으로 법률, 의료, 뷰티, 미디어 등 다양한 분야에서 발달하고 있다. 예를 들어 법률 분야에선 법률 문서 작성, 요약 등에 활용되며, 의료 분야에서는 질병 진단, 의료 영상 분석 등에 활용되고 있다. 또 뷰티 분야에서는 맞춤형 제품 추천, 스마트 미러 등의 AI 기술이 도입되어 활용되고 있다. “K-뷰티, K-미디어·컨텐츠에 대한 수요 증가로 AI 적용에 대한 산업계의 움직임도 활발하다”는 평가다.
현재 버티컬 AI의 필요성이 국내외적으로 커지고 있는 가운데, 오는 2032년까지는 연평균27.02% 성장할 것으로 예상된다. 기존의 범용 LLM은 특정 산업별로 각기 다른 용도나 요구를 충족하기 어렵다으나 이를 해결하기 위해 sLLM 같은 도메인 특화 모델이 법률, 금융, 의료 등을 중심으로 거대한 시장을 형성하고 있다는 진단이다.
