“생성형 AI가 기존 AI와 결정적으로 다른 점”
전문가들, “기존 AI는 ‘예측’ 기능뿐, 생성형AI는 ‘예측’+‘탐색’+‘짐작’” ‘생각’하는 기계 등장할 수도…“AI가 데카르트 존재론의 대상으로 격상?” 한정된 데이터 기반의 기존AI와 달리, 현실에 없는 데이터를 상상, 가공
[애플경제 전윤미 기자] [애플경제 박경만 주필] ‘생각한다 고로 나는 존재한다’-. 명저 <방법서설>에서 데카르트가 규명한 존재론의 서사가 앞으로 기계에게도 적용될 수 있을까. 차세대AI 또는 생성형AI가 등장하면서 기존 AI기술과는 차원을 달리하는 디지털 세계 질서가 펼쳐질 경우 그런 상황마저 예상할 수 있다.
생성형AI는 한 마디로 스스로 ‘생각하는’ AI라고 표현할 수도 있다. 주어진 데이터 기반의 학습에 의존하는 기존 AI와도 다른 점이다. 가트너는 “콘텐츠나 사물에 대한 데이터를 통해 학습하고, 그것을 사용하여 창조적이며 현실적인, 완전히 새로운 아웃풋을 만들어내는 기계학습 방법”으로 정의한 바 있다.
그러면서 “‘데이터가 많이 있는 세계’에서만 활약하는 기술이 아니라, 적은 양의 정보를 통해 새로운 것을 창출하는 등 데이터가 충분하지 않은 영역으로 발을 들여놓는 기술이라는 점에서 ‘차세대 AI 기술’ 중 하나로 주목받고 있다”고 의미를 더했다.
국내외 전문기관들도 ‘생각하는 AI’ 등장 예고
그렇다면 생성AI와 기존 AI와의 차이는 무엇일까. 전문가마다 약간씩 정의를 달리하고 있지만, 대체로 ‘예측’과 ‘탐색’ 내지 ‘계획’과의 차이에 방점을 두고 있는 편이다. MIT테크놀로지 리뷰, 가트너 등이나, IRS글로벌, 우리금융경영연구소, 키움증권 등 국내외 연구기관들이 그간 규정한 개념도 대략 이와 비슷하다.
다시 말해 기존의 대량의 데이터를 사용하여 개발된 AI는 데이터를 통해 사물의 ‘특징’을 배워 ‘예측’하는 것이다. AI가 특징을 알아내는 데 필요한 충분한 데이터가 많으면 많을수록 성능 좋은 AI가 도출될 수 있다. 그래서 현실 세계에서 존재하는 대량의 데이터 중에서 가장 가까운 것, 혹은 답변을 이끌어내는 것이 기존 AI의 속성이다.
그러나 차세대 AI는 아예 데이터가 없는 무지의 세계에서, 제 나름대로 경험해보지 못한 것들을 ‘짐작’하거나 ‘생각’해내는 것이다.
현실 세계는 아직 모든 사물이 데이터화되지 않았다. 대량의 학습 데이터가 없거나 대량의 데이터를 만드는 데 큰 비용이 들어서 데이터를 취득하는 것이 현실적으로 불가능한 경우가 많다. 지금까지 사람이 전혀 경험해보지 못한 세계에 대한 데이터는 당연히 존재하지 않지만, 데이터가 적거나 데이터가 없는 문제라 해도 결과를 도출할 수 있는 것이 차세대 AI라고 할 수 있다.
다시 말해 기존 AI가 방대한 데이터를 학습하여 그 범주에서 ‘예측’만 하는데 비해, 차세대 AI는 일어날 수도 있거나, 혹은 미처 생각하지 못했던 것들을 ‘탐색’하거나 ‘계획’하는 능력을 갖추게 된다. 즉, ‘생각’하는 능력을 갖게 되는 것이다.
데이터가 존재하지 않는 세계에서 탄생한 AI
가트너는 “애초에 인간이 경험한 적 없는 일에 대한 데이터는 존재할 수가 없다”고 전제했다. 예를 들어, 100년에 한 번 꼴로 일어나는 기상 현상이나, 희귀한 질환, 센서를 설치하는게 불가능한 먼 우주공간 등이 글너 사례다. 이런 경우에는 “기존의 AI가 ‘특징을 학습하여 예측하기’에 충분한 양의 데이터가 존재할 수가 없다”는 것이다.
특히 인체 실험처럼 현실적으로 불가능한 시도나, 아직 등장하지도 않은 스마트시티 실증실험 등도 그런 사례다. 현실적으로 이에 관한 데이터를 취득하지 못하거나, 데이터를 구한다고 해도 막대한 비용이 들어간다. 사실상 ‘데이터가 존재하지 않는 세계’라고 할 수 있다.
그러나 데이터가 존재하지 않는 영역에서도 AI 기술을 응용하고픈 욕망에서 비롯된 것이 생성AI기술이다. 즉, 기존 AI의 ‘예측’ 기능에 더하여 ‘탐색’과 ‘계획’을 할 줄 아는 AI라고 할 수 있다.
즉, 대량의 데이터를 바탕으로 하는 과거의 경험을 통해 판단할 수 있는 최선의 수단을 선택하는 수준을 뛰어넘어야 한다. 인간이 지식적으로 알고 있는 물리법칙이나 경험칙 및 유사한 현상에 대한 과거 데이터를 총동원하여 예측할 수 있는 것 중에서 더 나은 것과 방법을 찾아야 한다는게 전문가들의 개념이다.
현실 계측, 모델링, 최적화와 계획 단계 거쳐
IRS글로벌은 “차세대 AI를 실현하기 위해 필요한 기술 요소는 크게 3단계로 나뉜다”고 했다. 이에 따르면 ▲ 실제 세계를 계측하고, ▲계측한 다음 AI가 이해할 수 있는 형태로 가공, 모델화한 후 ▲ 모델을 바탕으로 가장 이상적이거나, 그렇게 생각되는 값으로 최적화하고 계획한다.
실제 세계에 대한 계측은 이미 산업계 전반의 DX 붐에 따라 어렵지 않게 되었다. 기업의 다양한 활동이 디지털화되고 계측되며 데이터를 취득하고 있다.
중요한 것은 데이터를 취득한 후 모델화하는 일이다. 정확히는 모델화 자체보단, 모델화를 하기 위한 충분한 데이터를 확보하는 것이다. 그러나 이는 쉽지않은 일이다. 현실세계에 존재하지 않거나, 아직 일어나지 않고 경험해보지 않은 데이터가 대부분이라고 할 수 있다.
그래서 “중요한 것이 데이터뿐만 아니라 사람의 지식을 모델에 추가하여 미지의 사실에 대해서도 크게 어긋나지 않는 모델을 만드는 일”이라며 “데이터가 전혀 없거나 아주 적은 세계에서 물리 및 화학반응에 대한 이미 알려져 있는 법칙, 시뮬레이션을 통해 얻은 정보 등 인간이 기존에 알던 ‘지식’을 가진 모델화를 시도할 수도 있다”고 했다.
단백질 효소작용과 유사한 원리?
IRS글로벌은 그러면서 단백질 효소작용의 사례를 들어 생성AI 모델링 과정을 설명했다. 즉 (인간의) 지식을 받아들여 효소를 자동으로 설계한다는 이치다.
이에 따르면 효소 설계는 자연계에 있는 효소를 ‘개변’시켜 성능이 더 좋은 효소를 만들어내기 위한 작업이다.
이때 단백질 안에는 변이시킬 수 있는 부분이 많다. 단백질을 구성하는 아미노산은 20종류가 있는데, 그 중 5군데를 변이하게 되면 그 조합의 경우의 수는 20종류의 5제곱으로 320만 가지가 된다. 만약 그 모든 변이 패턴을 실험을 통해서만 검증하여 원하는 기능을 가진 효소를 찾아내야 한다면, 그것은 현실적으로 불가능하다. “그러므로 어떤 변이를 주어야 하는지, 어느 정도 기준을 세워야 한다”는 것이다..
그래서 현실적인 실험 횟수를 통해 얻을 수 있는 80종 정도의 변이체만 가지고 이루어진 실험 결과를 통해 얻은 데이터를 학습 데이터로 삼았다. 이 데이터를 사용하여 효소의 아미노산 배열을 통해 촉매의 활성과 발현량을 예측할 수 있는 모델을 만들었다. 즉 생성AI의 모델링 과정도 이와 같다는 얘기다.
이때 데이터의 양이 적기 때문에, 기존에 알려져 있는 특징을 이용하여 예측 정확도를 높인다. 그런 다음 AI 기술 중 하나인 베이즈 최적화를 사용하여 몇 가지 최적의 변이 방법을 만들어낸다. 다시 이에 관한 실험 데이터를 취득하고 모델화, 최적화를 반복함으로써 활성이 높은 변이체 조합을 찾을 수 있게 된다.
“그 결과 자연계에는 존재하지 않는 조합 중 성능이 높은 단백질이 있을 가능성을 제시하는 데이터가 제시되어 있어, 새로운 단백질을 개발하는 방법으로 주목받고 있다”고 생성AI 원리와 견주었다.
“사람과 생성AI의 협동과 보완이 이상적”
전문가들은 특히 ‘짐작’이라는, 인간만의 속성에 주목한다. 생성AI가 궁극적으론 사람이 무심코 수행하는 ‘짐작하여 시도하는’ 능력을 갖게될 수도 있다는 뜻이다. 흔히 사람은 경험해보지 않았거나, 상상세계에만 머무는 상황, 대상에 관해 수많은 파라미터를 조합하여, ‘보다 가능성이 클 것 같은 패턴’을 선택하는, ‘짐작’이라는 사고를 한다.
그 결과 의사를 결정하거나, 먼 미래를 예상하며 중간 목표를 세울 수 있게 된다. 생성AI 연구가 궁극적으로 겨냥하는 것도 그 지점이다. 그런 경우 “사람의 힘만으로는 실현할 수 없는 것, AI만으로도 실현할 수 없는 것을 서로 활용하고 협동하는게 가장 바람직할 것”이라는게 이들 전문가들이 희망사항이다.