독자 AI 파운데이션 모델 경쟁격화…네이버 토큰화 방식 논쟁

[서울이코노미뉴스 박희만 기자] 정부의 독자 인공지능(AI) 파운데이션 모델사업 선정을 둘러싼 경쟁이 과열되면서, 참여기업 간 논란이 잇따르고 있다.

이번에는 독자 AI 정예팀 가운데 한곳인 네이버가 중국 알리바바의 큐웬(Qwen) 모델과 유사한 숫자 처리방식을 적용했다는 주장이 제기되며 업계내 의견이 엇갈리고 있다.

13일 네이버의 독자 AI 파운데이션 모델인 ‘하이퍼클로바X 32B 싱크(Sync)’ 모델의 테크 리포트에 따르면, 네이버는 토큰화(tokenization) 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬과 동일한 숫자 처리 접근방식을 적용한 것으로 알려졌다.

토큰은 AI 모델이 텍스트를 이해하는 최소단위로, 토크나이저는 문장이나 단어를 토큰 단위로 분해하는 도구를 의미한다.

이 과정에서 숫자를 처리하는 방식은 모델의 수학·논리적 추론성능에 영향을 미친다.

이에 대해 네이버클라우드는 “라마나 큐웬의 토크나이저를 그대로 사용한 것은 아니다”라며 관련 의혹을 일축했다.

네이버클라우드는 “테크 리포트에 언급된 내용은 숫자를 한자리씩 분리해 토큰화하는 방식을 의미한다”며 “라마와 큐웬의 접근법을 적용한 이유는 코드 작성과 수학 문제에서 숫자 및 연산 성능을 향상시키기 위한 것”이라고 설명했다.

예를 들어 숫자 ‘12345’를 하나의 단위가 아닌 1, 2, 3, 4, 5로 각각 토큰화하는 방식이 라마와 큐웬에서 활용되는 접근법이며, 네이버 역시 이를 동일하게 적용했다는 의미다.

다만 네이버클라우드는 해당방식이 “업계에서 널리 활용되는 표준적인 접근법”이라고 강조했다.

이를 두고 AI 업계에서는 평가가 엇갈리고 있다. 한 업계 관계자는 “AI가 문자를 이해하기 위해서는 토큰을 벡터로 변환하는 과정이 필요한데, 외국 모델의 토큰화 방식을 적용할 경우 한국어 맥락 반영 측면에서 자체방식보다 불리할 수 있다”고 지적했다.

반면 다른 관계자는 “수학이나 과학 분야에서는 숫자를 자릿수 단위로 분리하는 방식이 추론 정확도에 유리해 이러한 토큰화 기법을 채택하는 사례가 적지 않다”고 말했다.

한편 LG AI연구원, 업스테이지, SK텔레콤, NC AI 등 다른 독자 AI 정예팀들은 토큰화 과정에서 외부 모델방식을 차용하지 않고, 자체적인 고도화 과정을 거친 것으로 전해졌다.

정부는 독자 AI 파운데이션 모델사업에 참여한 5개 정예팀의 모델 평가를 마친 뒤, 오는 15일 1차 탈락 컨소시엄을 발표할 예정이다.