엔비디아, 추론전용칩·신형 CPU 공개…AI 에이전트 시대 열다

[서울이코노미뉴스 박희만 기자] 엔비디아가 추론 전용 칩과 신규 중앙처리장치(CPU)를 공개하며, 인공지능(AI) 에이전트 시대를 겨냥한 차세대 컴퓨팅 아키텍처 구축에 나섰다.

젠슨 황 최고경영자(CEO)는 16일(현지시간) 미국 새너제이 SAP 센터에서 진행한 엔비디아의 연례 개발자회의 GTC 2026 기조연설에서 ‘그록3(Groq3) 언어처리장치(LPU)’를 차세대 AI 슈퍼컴퓨터 ‘베라 루빈’에 통합한다고 밝혔다.

이번 발표는 GPU 중심 구조에서 나아가 LPU와 CPU를 결합한 이른바 ‘AI 에이전트 최적화 구조’를 구현하려는 전략으로 풀이된다.

엔비디아는 대규모 데이터 연산은 ‘루빈’ 그래픽처리장치(GPU)가 담당하고, 고속 응답처리는 LPU가 맡는 방식으로 역할을 분담해 시스템 효율을 극대화한다.

젠슨 황 CEO는 “이같은 구조를 통해 조 단위 파라미터를 갖는 초대형 AI 모델의 추론 처리량을 최대 35배 향상시키고, 지연시간을 크게 줄일 수 있다”고 설명했다.

엔비디아는 LPU 256개를 하나로 묶은 ‘LPX 랙’을 베라 루빈 시스템에 통합했다.

이에 따라 베라 루빈 슈퍼컴퓨터를 구성하는 핵심부품은 기존 6종에서 LPU를 포함한 7종으로 확대됐다.

이와 함께 엔비디아는 신규 CPU ‘베라(Vera)’도 공개했다. 베라는 기존 x86 기반 CPU 대비 성능은 1.5배, 에너지 효율은 2배 수준으로 향상된 것이 특징이다.

해당 CPU에는 엔비디아가 AI 연산을 위해 자체 설계한 ‘올림퍼스(Olympus)’ 코어가 탑재돼 기존 대비 3배의 메모리 대역폭을 제공한다.

엔비디아는 베라 CPU를 256개 결합한 CPU 랙도 함께 선보이며, 대규모 AI 인프라 구축을 위한 확장성을 강조했다.

이처럼 엔비디아가 LPU와 CPU를 동시에 강화한 것은 AI 에이전트 환경에서 요구되는 연산구조 변화에 대응하기 위한 것으로 분석된다.

기존 챗봇 중심 AI와 달리, AI 에이전트는 복잡한 작업을 수행하기 위해 빠른 추론속도와 함께 전체 프로세스를 조율하는 능력이 요구된다.

이에 따라 GPU는 데이터 처리 중심역할을 맡고, LPU는 빠른 응답 생성, CPU는 전체 작업흐름을 조정하는 역할을 수행하는 구조가 구현된다.

황 CEO는 차세대 로드맵도 함께 공개했다. 그는 ‘루빈’의 후속 GPU인 ‘파인만(Feynman)’과 이를 지원하는 신규 CPU ‘로자(Rosa)’를 소개하며, 해당시스템에 차세대 LPU인 ‘LP40’이 탑재될 예정이라고 밝혔다.

젠슨 황 CEO는 “내년까지 엔비디아의 AI 칩 시장 기회는 최소 1조달러(약 1489조원) 규모에 이를 것”이라며 AI 반도체 시장의 폭발적인 성장 가능성을 강조했다.