새 무기 꺼낸 'GPU 제국' … 학습칩 넘어 추론칩도 치고 나간다
2026.03.17 17:58
AI 에이전트의 급속한 확산
반도체 시장구도 뒤흔들어
대규모 언어모델 학습보다
실시간 추론 처리량이 중요
GPU에 AI 추론특화칩 결합
차세대 플랫폼 경쟁력 키워
"추론의 변곡점이 도래했다."
젠슨 황 엔비디아 최고경영자(CEO)가 'GTC 2026' 기조연설에서 던진 메시지는 명확했다.
인공지능(AI) 산업의 중심이 모델을 학습하는 단계에서 실제 서비스를 구동하는 추론 단계로 이동하고 있으며, 경쟁 기준 역시 '토큰을 얼마나 빠르고 싸게 만들어내느냐'로 바뀌고 있다는 것이다.
황 CEO는 "AI 데이터센터는 더 이상 파일을 저장하는 곳이 아니라 토큰을 만들어내는 'AI 공장'"이라고 묘사했다. 이러한 변화의 핵심으로 엔비디아는 추론에 최적화된 AI 반도체 '그록3 언어처리장치(LPU)'를 처음 선보였다.
토큰은 AI가 텍스트와 이미지, 코드 등을 처리하고 생성하는 최소 단위다. AI가 답변을 만들어내는 모든 과정은 결국 토큰을 연속적으로 생성하는 과정이다. 황 CEO는 "토큰은 새로운 산업의 생산물"이라며 "AI 기업의 경쟁력은 모델 크기가 아니라 토큰 생산 속도와 비용에 달려 있다"고 강조했다. 토큰 생산량 자체가 곧 매출로 이어지는 구조가 되면서 AI 수익 모델이 '모델 개발'에서 '추론 처리량' 중심으로 이동하고 있다는 설명이다.
이 같은 변화에 대응해 엔비디아는 차세대 플랫폼 '베라루빈(Vera Rubin)'을 공개했다. 올해 초 'CES 2026'에서 선보인 '베라' 중앙처리장치(CPU)와 '루빈' 그래픽처리장치(GPU)에 더해 네트워크, 저장장치, 보안까지 통합한 AI 인프라 플랫폼이다. 황 CEO는 이를 "AI 에이전트 시대를 위한 컴퓨팅 구조"라고 규정했다. 단순 질의응답을 넘어 파일을 읽고, 웹을 탐색하고, 외부 도구를 활용하는 에이전트형 AI가 등장하면서 데이터센터 전체를 새롭게 설계해야 한다는 설명이다.
베라루빈은 토큰 처리량을 높이면서도 전력 대비 성능을 크게 개선해 AI 팩토리 구축을 겨냥했다.
여기에 결합된 그록 LPU가 이번 전략의 핵심으로 꼽힌다. 이 칩은 데이터를 빠르게 꺼내 쓸 수 있는 메모리 구조(SRAM)를 기반으로 토큰을 빠르고 끊김 없이 생성하는 데 최적화돼 있다. GPU가 복잡한 계산을 맡는다면, LPU는 실제 답변을 생성하는 구간을 빠르게 처리하는 역할을 맡는다. 고속 처리용과 저지연 처리용 프로세서를 결합한 구조다.
엔비디아가 추론 전용 칩을 내놓은 배경에는 경쟁 심화가 있다. 구글의 텐서처리장치(TPU)를 비롯해 AI 스타트업 세레브라스 등이 이미 추론 속도와 비용에서 강점을 앞세워 시장 공략에 나서고 있다. 이에 대응하기 위해 엔비디아는 지난해 200억달러(약 30조원)를 투입해 그록의 기술을 확보한 뒤 추론칩 개발에 나섰다. 범용 연산에 강한 GPU에 추론 특화 칩을 결합해 시장 지배력을 유지하겠다는 계획이다. 이를 두고 업계에서는 "엔비디아가 GPU 중심 구조를 보완해 시장 주도권을 유지하기 위한 전략을 세웠다"는 평가가 나왔다.
엔비디아의 이러한 변화는 폭발적으로 확대되는 시장을 놓칠 수 없기 때문이다. 황 CEO는 "블랙웰과 베라루빈 시스템을 중심으로 지금부터 내년까지 1조달러 규모의 주문이 발생할 것"이라 내다봤다. 기존 5000억달러 전망을 두 배로 상향한 것이다. 그는 "더 많은 토큰을 생성할 수만 있다면 기업들의 매출도 늘어난다"며 폭발적인 수요를 강조했다.
특히 AI 에이전트 확산이 추론 수요를 급격히 끌어올리고 있다. 황 CEO는 "에이전트의 등장 이후 필요한 추론 연산량은 초기 '챗GPT' 대비 1만배 늘었으며, 사용량까지 고려하면 전체 수요는 100만배 증가했다"고 설명했다. AI가 단순 답변 생성에서 벗어나 실제 업무를 수행하는 단계로 진입하면서 더 빠르고 저렴한 추론 인프라가 필수 조건이 됐다는 얘기다.
이날 엔비디아는 AI 에이전트를 쉽게 구축할 수 있는 소프트웨어도 공개했다. 오픈소스 프레임워크 '오픈클로'를 개선해 기업 환경에 맞게 확장한 '네모클로'가 대표적이다. 개발자는 이를 활용해 복잡한 설정 없이 AI 에이전트를 구축할 수 있다.
[실리콘밸리 원호섭 특파원]
저작권 보호를 위해 본문의 일부만 표시됩니다.
원문 보기 →댓글 (0)
첫 번째 댓글을 작성해보세요!
오픈클로의 다른 소식
모든 소식을 불러왔습니다
