각국, AI모델 개발보다, ‘자국 문화·언어 융합’ 시급

천문학적 비용 AI개발 앞서 “기존 모델에 ‘고유의 데이터’ 학습” 기존 모델, 영미권 데이터 대신 다양한 문화·언어로 간극 채워야 구글, 멸종 위기 언어 프로젝트 ‘ELP’ “원주민 문화 디지털화”

2025-05-20     전윤미 기자
공동체나 국가 고유의 문화, 언어를 AI에 녹여내는 노력이 신규 개발못지않게 중요하다는 지적이다. 사진은 '2025 국제인공지능대전'으로 본문과는 직접 관련이 없음. (사진=애플경제)

[애플경제 전윤미 기자] 실리콘밸리를 비롯한 미국 테크산업이 여전히 세계 AI기술을 선도하고 있다. 이에 각국도 자신들만의 콘텐츠를 기반으로 학습된 자체 AI 대안을 개발하는데 주력하고 있다. 그러나 자체적인 대형 AI모델(LLM)을 개발하기 위해선 천문학적 비용이 들 수 밖에 없어, 일부 주요국들을 제외하곤 엄두를 내기 힘든 현실이다.

이에 최근엔 “굳이 개별 국가들이 자체 AI를 구축할 필요는 없다. 단지 기존 (대형 모델) AI 안에서의 ‘위치’(Just Their Place in It)만 확보하면 된다는 대안이 일각에서 제시되고 있어 눈길을 끌게 한다. 즉, “각국은 자국의 문화와 언어를 각자 디지털 방식으로 표현하고, AI 시스템 학습에 활용할 수 있도록 하는 것이 더 효과적일 것”이란 얘기다.

일부 전문가들은 “일부 국가에서는 주로 영어 기반의 서구 중심 콘텐츠를 기반으로 학습된 생성 AI 도구의 인기가 자국이나 문화의 위상을 약화시킬 수 있다고 우려하지만 이는 기우”라며 이같이 밝혔다.

자국 문화·언어, 디지털 방식으로 표현해야

실제로 우리나라를 비롯한 주요국들은 실리콘밸리와는 별개로 천문학적 숫자의 매개변수를 지닌 대형 언어모델 개발에 박차를 가하고 있다. 우리의 경우도 삼성, SK, LG, 이동통신3사, 네이버, 카카오 등이 이런 개발 경쟁에 뛰어들고 있다. 물론 국가 산업 차원에서도 이는 일견 바람직한 일이다. 다만 그런 프로젝트마다 엄청난 비용이 수반될 수 밖에 없다.

AI와 데이터 전문사이트 데이터베이션의 AI 애널리스트 에이샤 바티는 “오늘날의 AI 모델은 다양한 문화 및 언어적 결과물을 지원할 수 있지만, 개발자들은 주로 영어 콘텐츠, 특히 역사적으로 온라인 데이터 생태계를 장악해 온 미국 기반 콘텐츠를 사용하여 AI 모델을 학습시켜 왔다.”면서 “연구에 따르면 대규모 언어 모델은 다른 언어로 번역할 때에도 영어로 ‘생각’하기 때문에 언어 특유의 뉘앙스가 손실되는 것으로 나타났다.”고 현실을 짚었다.

물론 미국은 AI 개발의 세계적 선두 주자이자 최대 규모의 AI 시장이다. 이는 새로운 것이 아니지만, 문화적 다양성을 저해할 위험이 있다. 즉 대중적인 콘텐츠가 다수에게 어필하려 하면서 지역적 전통, 언어, 문화에 의해 ‘침식’되는 현상도 초래했다. 대표적으로 “할리우드가 영화의 세계적 표준이 된 것처럼, 미국 기업들은 AI 스토리텔러의 표준이 되었다”는 것이다.

그러나 에이샤 바티는 “미국, 중국 또는 다른 글로벌 기업을 막론하고 기술 기업들이 이러한 불균형을 단독으로 해결할 것이라고 기대하는 것은 비현실적”이라며 “전 세계 정부와 공동체는 다양한 데이터의 상업적 가치를 활용, 자신들의 언어, 역사, 관습이 디지털 환경에 포함되도록 해야 한다”고 제안했다. 그러면서 일본의 사례를 들었다.

일본, 뉴질랜드, 캐나다 원주민 단체 등 대표적

일본의 경우 타국 개발 AI모델에 의존하는 대신, 자신들의 문화 유산과 언어 자산을 디지털화하기 위해 집중적인 노력을 기울여 왔다. “이를 통해 일본은 국내 및 국제적인 AI 기술 생태계에 부합될 수 있도록 했다”고 전했다.

그런 가운데 구글과 메타와 같은 기업들도 다국어로 된 AI 발전에 상당한 기여를 해왔다. 그럼에도 데이터 격차는 여전히 지속적인 과제가 되고 있다. AI기술 발전에도 불구하고, 특히 소수 언어와 문화를 중심으로 한 세계 여러 지역은 여전히 ​​디지털 공간에서 제대로 대표되지 못하고 있다는 지적이다.

'2025 국제인공지능대전' 참가업체 부스로 본문과는 직접 관련이 없음. (사진=애플경제)

심지어는 EU의 AI법과 같은 규제 역시 각국별로 다른 데이터나 ‘독자성’의 격차를 해소하지 못할 것이란 얘기다. 그렇다고 “실행 가능하고 포괄적인 대안을 제시하지 않고 널리 사용되는 도구를 억압할 경우 이러한 격차를 더욱 심화시킬 위험이 있다”는 지적이다.

특히 “문제는 많은 공동체가 이러한 AI모델을 형성하는 과정에서 배제된다는 점”이라며 “소수 민족이나 원주민 공동체는 AI에 의해 지배되기보단, 나름대로 AI 안에서 ‘대표’되기를 원한다”는 것이다.

이에 따르면 뉴질랜드에서 ‘마오리어’ 활성화에 주력하는 자선 미디어 단체인 ‘테 히쿠 미디어’(Te Hiku Media)도 그런 사례 중 하나다. 이 단체는 ‘마오리’어를 보존할 뿐만 아니라, “AI가 소외된 문화를 없애는 것이 아니라, 어떻게 강화할 수 있는지에 대한 윤리적 기준을 제시하는 ‘마오리어 음성 인식 모델’”을 개발했다. 즉 “혁신을 저해하는 규제가 아니라 ‘포용성’을 확대하는 참여에 미래가 달려 있다”는 주장이다.

그래서 가장 효과적인 해결책은 소수문화의 데이터 가용성을 높이는 것이다. 그러나 아직은 디지털화된 형태로 온라인에서 접근 가능한 문화, 언어 또는 공동체가 AI 내에서 많지가 않다. 이에 소외된 공동체의 포용성을 보장하기 위해 데이터를 수집, 구조화하고 라이선스를 부여하는 노력이 중요하다.

예를 들어, 위키피디아는 언어 활동가들과 협력, 멸종 위기에 처한 언어의 자료를 확장함으로써 문화 유산을 보존할 뿐만 아니라 ‘차세대 AI 모델’의 일부가 되도록 하고 있다.

데이터 가용성 높여 ‘공동체 자신의 이미지로 AI 발전’

멸종 위기에 처한 언어 프로젝트(ELP)와 같은 공공-민간 파트너십도 대표적인 대안이다. 구글에서 처음 개발한 ELP는 현재 캐나다 ‘브리티시 컬럼비아’주 정부 기관인 ‘원주민 문화 위원회’(First Peoples’ Cultural Council)에서 담당하고 있다. ELP는 디지털화 과정에서 이러한 공동체를 지속적으로 보호하기 위한 프로젝트의 방향을 제시한다.

그래서 “전 세계적으로 대표되는 데이터를 쉽게 이용할 수 있을 때, AI 시스템은 더욱 포용적이고 국제적 연관성과 유대감을 가질 수 있다.”는 주장이다. 다시 말해 “AI에서 영미 학습 데이터가 지배적인 것은 규제로 해결될 문제가 아니라, ‘채워야 할 간극’”이라며 “각국 정부는 다양한 공동체의 문화 유산을 보호할 의무가 있다”는 것이다.

데이터베이션은 “이러한 다양성을 반영하는 데이터의 디지털화와 가용성을 우선시함으로써, 국가와 공동체는 다른 누군가의 이미지에 복종하기보다는, 자신의 이미지에 맞춰 AI를 발전시킬 수 있게 된다”고 제안했다.