De GPU para LPU: Nvidia lança uma ofensiva massiva em chips de inferência, Jensen Huang dá mais um passo decisivo

robot
Geração do resumo em andamento

Jornalista da ChinaHuaxia Times, Shi Feiyue, Pequim, relata

A orientação da indústria de IA mudou. Nos anos anteriores, todos estavam a lutar desesperadamente por “treinar modelos” — alimentar os dados nos GPU, esperar que eles desenvolvessem inteligência; naquela altura, os GPU da NVIDIA eram o único rei, ninguém os conseguia abalar. Mas, nos últimos dois anos, agentes de IA em enxame começaram a afluir ao mercado: a Manus ganhou destaque fora do seu círculo, a OpenClaw está em alta em todo o lado, e os fabricantes de modelos e os prestadores de serviços cloud começaram a ganhar dinheiro vendendo tokens. As Cerebras, levantando as bandeiras de “mais rápido, mais barato”, abriram brechas no território da NVIDIA, conquistado durante anos.

A indústria finalmente percebeu isto: o treino continua, mas a “inferência” já se tornou a corrente principal. A NVIDIA, naturalmente, não vai perder esta oportunidade de mercado; no “bolo” da inferência, ela também quer cortar um pedaço. Na madrugada de 17 de março, na GTC 2026, o CEO da NVIDIA, Huang Renxun, apresentou uma nova arma — Groq 3 LPU — atacando em grande escala o mercado de chips de inferência. Ao mesmo tempo, ele lançou um conjunto de números: até ao fim de 2027, as duas linhas de produtos Blackwell e Rubin terão uma receita anual de 1 trilião de dólares, o dobro da previsão feita há meio ano.

Treino e inferência a duas frentes

Desta vez, a NVIDIA lançou oficialmente a plataforma Vera Rubin, com 7 chips no total: Rubin GPU, Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU, NVLink 6 Switch, Spectrum-X 102.4T CPO e também o Groq 3 LPU recentemente integrado.

“O ‘LPU’ tem a sua designação completa em ‘Language Processing Unit’, ou seja, Unidade de Processamento de Linguagem, e é um chip acelerador especializado para inferência de IA. O Rubin GPU, em conjunto com o Groq LPU, vai levar a taxa de processamento atual de 100 tokens por segundo para 1500 tokens por segundo, ou até mais, suportando perfeitamente cenários de interação de agentes de IA.

A NVIDIA lançou ainda uma prateleira completa dedicada a acomodar os aceleradores Groq mais recentes — Groq LPX. De acordo com a explicação do vice-presidente sénior de computação a grande escala e high performance computing da NVIDIA, Ian Buck, o Groq LPX vai melhorar o desempenho de descodificação de “cada camada do modelo de IA por token” e permitir que o Rubin sirva o próximo domínio de ponta da inteligência artificial: sistemas multiagente. Estes sistemas necessitam de desempenho interativo ao mesmo tempo que lidam com modelos com dezenas de biliões de parâmetros na inferência, em janelas de contexto de milhões de tokens.

A cobiça da NVIDIA pelo mercado de chips de inferência não começou hoje; já vinha preparada. Em dezembro de 2025, a empresa adquiriu por cerca de 20 mil milhões de dólares os activos tecnológicos nucleares da Groq. O seu fundador juntou-se à NVIDIA, e o Groq 3 LPU é o primeiro resultado público desde a aquisição.

Com base em previsões do modelo do departamento de investigação de investimentos globais do Goldman Sachs, a quota de remessas de chips não-GPGPU, entre os chips de IA em servidores de IA, vai apresentar uma tendência claramente ascendente. Espera-se que suba gradualmente de 36% em 2024 para 45% em 2027. Por outro lado, a quota de remessas de chips GPGPU deverá descer gradualmente de 64% em 2024 para 55% em 2027.

O analista sénior da InSemi Research, Qin Fengwei, apresentou ao jornalista: “GPU terá mais competitividade em cenários de treino de modelos base, em que são exigidos requisitos mais elevados de generalidade (por exemplo, cloud pública) e em cenários de computação paralela; já ASIC (incluindo TPU, DPU, NPU, LPU, etc.) tem vantagens relativamente maiores na fase de implementação do modelo e em cenários de inferência, porque estes cenários exigem rácios de eficiência energética e latência de resposta mais elevados.”

“Por isso, ao lançar o LPU, a NVIDIA está a responder com um posicionamento estratégico ao facto de a procura de capacidade de computação de IA estar a mudar de ‘treino’ para ‘inferência’, sendo este um passo fundamental para colmatar falhas. Com um planeamento de produtos mais fino e detalhado, ela responde às mudanças do mercado e aos desafios dos concorrentes.”, disse ao jornalista Zhang Xiaorong, director do Instituto de Investigação de Tecnologia Profunda.

Segundo relatos da imprensa, o plano da NVIDIA para dar resposta à procura crescente por inferência já lhe trouxe retorno. No mês passado, a OpenAI afirmou que chegou a um acordo com a NVIDIA para adquirir chips com “capacidade dedicada para inferência”.

Da penetração em chips à actualização do ecossistema para fábricas

Nos últimos anos, a IA generativa detonou o mercado, e o treino de grandes modelos tornou-se o maior abismo de capacidade de computação. Graças à posição dominante absoluta dos GPU, a NVIDIA capturou a maior parte dos benefícios dessa vaga; tanto os resultados como a valorização de mercado dispararam em simultâneo, e ela ganhou de forma generosa.

No entanto, à medida que a competição por parâmetros dos modelos entrou numa fase de quebra de rendimentos marginais, o treino de grandes modelos, depois de correr desenfreadamente durante dois anos, acabou por abrandar. A partir de 2025, o eixo da competição começou a desviar-se — os agentes de IA e a engenharia de contexto subiram para o centro das atenções. O sinal mais directo é este: a OpenClaw conquistou plataformas sociais. Ao longo de todo o sector tecnológico, ela saiu do seu nicho, entrando no fluxo de informação do cidadão comum.

Agentes de IA são um dos factores-chave para promover o crescimento da procura no mercado de inferência. O seu cenário principal dá mais ênfase à inferência do que ao treino — esta visão foi claramente apoiada por múltiplas pesquisas de referência e análises do sector. Assim, quando as capacidades de IA evoluíram do estágio de treino de grandes modelos base para agentes que se concentram em construir fluxos de trabalho, o foco da procura de capacidade de computação de IA passou de treino para inferência.

E como o principal player em infra-estruturas de IA, a NVIDIA também precisa de acompanhar a tendência do mercado e, ainda por cima, numa actualização a nível de ecossistema inteiro.

Nesta conferência GTC, além de lançar o LPU, a NVIDIA também se juntou a equipas representadas pelo fundador da OpenClaw, Peter Steinberger, para reunir especialistas de topo em segurança e computação e lançou a arquitectura de referência NeMoClaw. Esta integra tecnologia OpenShell, mecanismos de defesa de rede e capacidades de roteamento de privacidade, permitindo que as empresas executem com segurança sistemas de agentes no seu próprio ambiente privado.

A NVIDIA chegou mesmo a lançar um design de referência de uma “fábrica” de IA Vera Rubin DSX, ensinando como desenhar, construir e operar toda a pilha de infra-estrutura de uma fábrica de IA. A cobertura inclui computação, rede NVIDIA Spectrum-XEthernet e armazenamento, de modo a alcançar desempenho de clusters repetível, escalável e optimizado.

Huang Renxun afirmou: “Na era da IA, os tokens inteligentes são a nova moeda, e as fábricas de IA são a infra-estrutura que gera esses tokens. Através do design de referência Vera Rubin DSX AI Factory e do Omniverse DSX Blueprint (blueprint de gémeos digitais), estamos a fornecer a base para construir as fábricas de IA com maior produtividade do mundo, a acelerar o tempo até à primeira receita e a maximizar a escala e a eficiência energética.”

Quanto a como a quota da GPU topo de gama da NVIDIA vai mudar após o lançamento do LPU, o jornalista do Huaxia Times entrevistou a NVIDIA sobre este ponto. Até ao momento da publicação, não foi recebida resposta. “O avanço da NVIDIA para o mercado de chips de inferência não significa que o negócio de GPU seja afectado. Pelo contrário, em conjunto com o LPU, ela vai abrir um espaço de mercado mais amplo.”, disse Zhang Xiaorong.

O perito especialmente contratado pelo Instituto de Pesquisa Zhican, Yuan Bo, apontou que, no curto prazo, os GPU dominam o mercado com a sua forte adaptabilidade a cenários e barreiras de ecossistema; especialmente nos cenários de treino de IA. A longo prazo, porém, as duas vias não são completamente antagónicas, e caminharão para uma integração e para uma segmentação do mercado. “Em termos de hardware, os GPU irão integrar núcleos especializados mais fortes, e os chips dedicados também vão aumentar a programabilidade. No mercado, prevê-se que se forme um padrão em camadas: inovação liderada pelos GPU e plataformas universais, enquanto os chips dedicados se aprofundam em grande escala na inferência.”

No mercado de ASIC, na verdade, já se reuniu um grupo de adversários da NVIDIA, incluindo Cerebras no estrangeiro, Cambricon, Huawei, Biren Technology (燧原科技) e outros. Zhang Xiaorong considera que o avanço da NVIDIA para o domínio dos chips de inferência, para os fabricantes nacionais, é simultaneamente um desafio e um catalisador. Vai criar um cenário complexo em que coexistem “compressão” e “forçar a mudança”, o que acelerará a redistribuição do sector e a actualização tecnológica.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar