독자 AI 파운데이션 모델 '취지 퇴색'...네이버 등 '중국산 활용' 논란

[서울이코노미뉴스 박희만 기자] 정부가 추진중인 독자 AI 파운데이션 모델 프로젝트를 둘러싸고 중국산 모델활용 논란이 좀처럼 사그라들지 않고 있다.

주권 AI 개발을 목표로 한 정예팀 선발과정에서 탈락 여부를 가를 핵심변수로 떠오르면서 업계의 이목이 집중되고 있다.

8일 업계에 따르면 글로벌 오픈소스 플랫폼 깃허브에는 최근 ‘국가 AI 파운데이션 모델 프롬스크래치 검증 프로젝트’ 보고서가 게시됐다.

해당 보고서에는 네이버가 타 컨소시엄과 달리 독자 AI 기술만으로 모델을 개발한 것이 아니라는 내용이 담겼다.

논란의 핵심은 네이버클라우드의 독자 AI 모델 ‘하이퍼클로바X 시드 32B 싱크’가 개발 과정에서 중국 알리바바의 오픈소스 모델 ‘큐웬(Qwen) 2.5’의 비전 인코더를 사용했다는 점이다.

비전 인코더는 이미지·영상 등 외부 시각데이터를 AI가 이해할 수 있는 디지털 신호로 변환하는 입력장치다.

네이버가 개발한 멀티모달 모델에서는 표현학습을 담당하는 핵심모듈로 평가된다. 특히 AI 모델 성능을 좌우하는 핵심요소인 ‘가중치(weight)’를 차용한 점도 도마에 올랐다.

가중치는 데이터 학습을 통해 축적된 경험값으로, 모델의 정확도와 직결된다.

단순히 구조만 참고한 것이 아니라 알리바바가 비용을 투입해 학습시킨 가중치 값을 그대로 활용했다는 점에서 ‘프롬 스크래치’ 개발 취지에 어긋난다는 지적이 제기됐다.

이에 대해 네이버는 중국 오픈소스 모델 활용사실을 인정하면서도 효율성과 합리성을 고려한 전략적 선택이었다는 입장이다.

오픈소스를 활용했다고 해서 프롬 스크래치 방식이 아니라고 단정하는 것은 부적절하며, 비전 인코더 사용사실을 테크니컬 리포트를 통해 투명하게 공개했기 때문에 문제될 것이 없다는 설명이다.

향후 모델 고도화 과정에서 자체 인코더로 교체할 가능성도 열어뒀다.

앞서, 업스테이지 역시 독자모델로 개발한 ‘솔라 오픈 100B’가 중국 지푸AI의 ‘GLM’ 모델과 구조적으로 유사하다는 의혹에 휩싸인 바 있다.

김성훈 업스테이지 대표는 지난 2일 공개 검증회를 열고 학습 로그와 체크포인트를 공개했다. 이후 의혹을 제기한 측이 분석이 정밀하지 못했다며 공식 사과하면서 논란은 사실상 일단락됐다.

업계에서는 이번 논란이 독자 파운데이션 모델 개발사업의 근본취지에 대한 의문을 던졌다는 평가가 나온다.

정부는 해외 기술 의존도를 낮추고 기술적 자립을 실현한다는 목표아래 정예팀을 선발해 주권 AI 모델을 개발하고 있다.

사업 공고 당시에도 해외 모델을 조정한 파생모델이 아닌, 모델 설계부터 사전학습까지 자체 수행한 모델을 조건으로 명시했다.

이에 따라 업계에서는 독자 AI 모델의 판단기준을 보다 명확히 해야한다는 목소리가 커지고 있다.

오픈소스나 외부 인코더를 활용한 모델을 프롬 스크래치 방식으로 볼 수 있는지, 허용범위를 어디까지로 설정할지가 핵심쟁점으로 떠올랐다.

특히 독자 AI 모델 개발 과정에서 오픈소스 활용 자체가 사업취지에 부합하는지를 두고 의견이 엇갈리면서 논쟁은 당분간 이어질 전망이다.

현재 프로젝트에 참여중인 다른 정예팀들 역시 글로벌 오픈소스 모델인 메타의 ‘라마(LLaMA)’ 등 기존 아키텍처를 참고하고 있다는 점에서 검증 논란에서 완전히 자유롭지 못한 상황이다.

향후 고도화 과정에서 외부 모델요소를 추가로 도입할 경우 또 다른 논란이 불거질 가능성도 제기된다.

정부는 이번 사안을 계기로 참여 기업들의 학습 로그와 체크포인트를 전수 조사할 방침이다.

특히 논란이 제기된 네이버클라우드 모델에 대해서는 비전 인코더가 모델 성능에서 차지하는 비중과 역할을 면밀히 분석할 계획이다.

인코더가 핵심요소로 판단될 경우, 완전한 독자 모델로 인정받기 어려울 수 있다는 관측도 나온다.

이달 중순으로 예정된 정부의 1차 평가결과 발표를 일주일가량 앞두고 논란이 확산되면서, 이번 사안이 최종 평가에 어떤 영향을 미칠지 업계의 관심이 쏠리고 있다.