네이버, 멀티모달 넘어 ‘옴니모달’로…AI 인식구조 ‘통합적’ 재설계

[서울이코노미뉴스 박희만 기자] 네이버가 텍스트·이미지·음성을 각각 인식하는 수준을 넘어 다양한 정보를 통합적으로 학습·추론하는 차세대 인공지능(AI) 기술인 ‘옴니모달(omni-modal)’ 개발을 마무리한 것으로 알려졌다.

업계에서는 이달 말 해당기술이 공개될 경우, 생성형 AI의 구조 자체를 바꾸는 전환점이 될 수 있다는 평가를 내놓고 있다.

19일 업계에 따르면 네이버는 자사 AI 플랫폼 ‘하이퍼클로바X’를 기반으로 한 신규 생성형 AI 모델을 준비 중이다.

텍스트·이미지·음성을 각각 처리한 뒤 결합하는 기존방식과 달리, 학습 단계부터 서로 다른 정보를 하나의 체계로 통합해 이해하는 ‘옴니 모달리티’ 구조를 핵심으로 한다.

국내 AI 업계에서는 이미 멀티모달 기술 경쟁이 본격화된 상황이다. 

NC AI 등을 비롯한 기업들은 텍스트, 음성, 이미지, 모션 등 다양한 데이터를 결합해 콘텐츠 제작에 활용하는 멀티모달 AI 분야에서 성과를 내고 있다.

여러 모달리티를 개별적으로 정교하게 처리한 뒤 이를 연결하는 방식으로, 실제 서비스에 비교적 빠르게 적용할 수 있다는 점이 강점으로 꼽힌다.

◇네이버, 독자 '옴니모달' 기술력 확보…"정보 이해 속도·폭 향상"

네이버가 내세우는 옴니모달은 멀티모달과 지향점이 다르다.

멀티모달이 서로 다른 정보를 효과적으로 결합하는 기술이라면, 옴니모달은 학습 단계부터 텍스트·이미지·음성·영상을 하나의 인식체계로 동시에 이해하도록 설계된 구조다.

이를 통해 상황과 맥락, 환경까지 종합적으로 판단할 수 있으며, 단순한 기능확장을 넘어 정보처리 방식 자체를 재설계했다는 평가가 나온다.

옴니모달 기술은 이미지와 음성, 영상 등 다양한 정보를 동시에 인식한다는 점에서 인간의 인지방식에 더 가깝다는 평가를 받는다.

기존 언어중심 AI 서비스가 질문의 정교함에 따라 성능이 좌우됐다면, 옴니모달은 질문이 명확하지 않더라도 주변 맥락과 시각·청각 정보를 종합해 사용자의 의도를 파악할 수 있다.

예컨대 한국어뿐 아니라 한국의 거리 풍경, K팝 아티스트, 유행 패션 등 다양한 이미지 데이터를 함께 학습시키면 한국 사회와 문화를 깊이 이해하는 AI 모델 구현이 가능하다.

사용자를 입체적으로 관찰하고 학습하는 만큼, 사용할수록 만족도가 높아지는 서비스로 발전할 수 있다는 설명이다.

◇우선은 경량화 규모 모델 개발…방법론 검증해 '스케일업' 계획

네이버는 초대형 모델에 앞서 경량화된 규모의 옴니모달 모델을 우선 공개할 계획이다.

새로운 개발방식의 안정성을 검증한 뒤, 첨단 그래픽처리장치(GPU)와 데이터 투입을 통해 단계적으로 모델을 확장한다는 전략이다. 신규 모델명은 아직 확정되지 않은 것으로 전해졌다.

이같은 전략은 정부가 추진중인 ‘독자 AI 파운데이션 모델’ 프로젝트에서도 구체화되고 있다.

해당 프로젝트의 주관사업자로 선정된 5개 기업 가운데 하나인 네이버클라우드는 네이버의 언어·음성 기반 멀티모달 기술에 영상 AI 전문기업 트웰브랩스의 기술을 결합해 ‘옴니 파운데이션 모델’을 개발 중이다.

네이버클라우드 컨소시엄은 이를 바탕으로 누구나 쉽게 활용할 수 있는 AI 서비스를 제공할 방침이다.

AI 에이전트 마켓플레이스를 통해 개인과 기업이 AI 에이전트를 직접 개발·등록·유통할 수 있도록 지원하고, 소버린 AI 구축경험을 토대로 K-AI 글로벌 수출모델을 만들겠다는 계획도 내놓았다.

경량화·추론 특화모델은 오픈소스로 공개해 활용성을 넓힌다는 구상이다.

한편 해외에서도 옴니모달 개념을 앞세운 AI 모델이 이미 등장했다. 오픈AI는 지난해 텍스트·이미지·음성을 하나의 모델에서 실시간으로 처리하는 생성형 AI ‘GPT-4o(Omni)’를 공개했다.

음성 인식, 이미지 처리, 언어 모델을 각각 거치던 기존방식과 달리 하나의 모델 체계에서 통합적으로 처리해 자연스러운 상호작용이 가능하다는 점이 특징이다.