Google emite nova "esclarecimento técnico", causando controvérsia sobre artigo que derrubou ações globais de armazenamento

robot
Geração do resumo em andamento

Pergunta: A clarificação técnica do AI · TurboQuant pode acalmar a controvérsia acadêmica?

Em 1º de abril, após quase uma semana de silêncio, a equipe responsável pelo artigo controverso sobre o algoritmo de compressão TurboQuant da Google finalmente respondeu. No entanto, essa mais recente “esclarecimento técnico” ainda parece não ter dissipado a controvérsia; diante das acusações de “semelhança técnica central”, a Google argumenta que a rotação aleatória é uma técnica padrão e que os erros nos benchmarks experimentais “não são importantes para os fatos”.

Na última semana de março, esse artigo, amplamente divulgado no blog oficial da Google, causou uma queda de mais de 90 bilhões de dólares na capitalização de mercado de fabricantes globais de chips de armazenamento, como Micron, SK Hynix e Samsung Electronics. O artigo aponta que o algoritmo de compressão TurboQuant consegue reduzir em pelo menos 6 vezes o uso de memória KV em modelos de linguagem grande, com aumento de velocidade de até 8 vezes, sem perda de precisão.

O pânico de Wall Street reside no fato de que, se o software puder comprimir a demanda de memória de IA em 6 vezes, a lógica de crescimento do hardware de chips precisará ser reescrita.

No entanto, a reversão veio rapidamente. Em 27 de março, Gao Jianyang, autor do RaBitQ e pós-doutor na ETH Zurique, publicou um artigo de mil palavras no Zhihu, acusando a equipe da Google de problemas acadêmicos sistêmicos, levando a uma rápida mudança de opinião para questionar a integridade acadêmica da Google.

O setor geralmente acredita que Gao Jianyang foi o primeiro a propor um método original, e que o TurboQuant foi otimizado com base nele, sem a devida citação ou respeito, chegando até a fazer uma avaliação injusta e depreciativa.

Em 1º de abril, diante das acusações externas, o segundo autor do artigo, Majid Daliri, finalmente se manifestou, publicando na plataforma OpenReview uma “esclarecimento técnico” com quatro pontos em nome da equipe.

No que diz respeito à novidade da tecnologia central, a Google afirma que o método principal do TurboQuant não se originou do RaBitQ. Pois “a rotação aleatória é uma técnica padrão e onipresente na literatura de quantização”, usada amplamente antes mesmo do surgimento do RaBitQ. A verdadeira inovação do TurboQuant está na derivação da distribuição de coordenadas após a rotação.

Porém, as regras acadêmicas dizem que: se alguém foi o primeiro a aplicar uma “roda” em um “carro” e construiu um carro completo, é uma etiqueta acadêmica básica que os posteriores citem e agradeçam. A Google minimiza as contribuições anteriores como conhecimento comum da indústria, o que equivale a rebaixar a contribuição do pioneiro.

Em segundo lugar, quanto à acusação de que o RaBitQ foi depreciado como “subótimo”, os autores admitem que, por não terem examinado cuidadosamente o apêndice do outro lado, perderam um fator constante, levando a uma conclusão precipitada, “fazendo com que inicialmente descrevêssemos o método como subótimo de forma honesta”. Após uma análise mais detalhada, descobriram que o RaBitQ realmente é ótimo, e a equipe está atualizando o manuscrito do TurboQuant.

No entanto, uma publicação de conferência de alto nível que baseia uma avaliação negativa do núcleo teórico de um colega na suposição de que “não leu o apêndice com atenção” pode ser questionada quanto à sua força justificativa.

No terceiro ponto, sobre a acusação de “usar o oponente como escudo para correr a corrida”, Majid Daliri afirmou diretamente que, mesmo omitindo completamente a comparação de runtime com o RaBitQ, o impacto científico e a eficácia do artigo permanecem praticamente inalterados. Pois a principal contribuição do TurboQuant reside na compensação entre qualidade de compressão e velocidade, e não em uma aceleração específica.

Anteriormente, Gao Jianyang revelou em uma carta aberta que a equipe da Google testou o RaBitQ usando CPU de núcleo único e desativou multithreading, enquanto testava o TurboQuant com GPU Nvidia A100. Embora a equipe afirme que a velocidade não seja o foco principal, o artigo ainda destaca a velocidade como um dos principais pontos de venda.

Por fim, a Google insinuou que a outra parte “tem intenções maliciosas”, apontando que o artigo foi publicado no arXiv desde abril de 2025, e que a parte contrária teve quase um ano para questionar por meios acadêmicos, só fazendo barulho após o artigo ganhar ampla atenção.

Segundo Gao Jianyang, em respostas anteriores, em maio de 2025, as partes se comunicaram por e-mail de forma privada, e em novembro de 2025, também contataram a comissão do ICLR, mas sem resposta efetiva. Somente quando a Google colocou o artigo em destaque na plataforma oficial, atingindo milhões de visualizações, a correção acadêmica se tornou urgente.

No OpenReview, um pesquisador comentou que essa é uma questão séria que merece mais atenção: “Ver pessoas envolvidas em trabalho fundamental sendo ignoradas, enquanto grandes organizações influentes promovem seus próprios resultados, é frustrante.” Nesse aspecto, parece mais uma disputa de relações públicas com grandes empresas do que uma questão científica.

Ao mesmo tempo, os revisores do artigo TurboQuant também se manifestaram, afirmando que, devido à análise teórica e aos resultados experimentais, deram uma avaliação muito positiva ao artigo.

“Porém, também deixei claro que tanto o RaBitQ quanto o TurboQuant usam rotação aleatória, e pedi aos autores do TurboQuant que comparassem como as diferenças de projeto entre TurboQuant e RaBitQ afetam o desempenho.” Um desses revisores afirmou que a prática acadêmica correta seria discutir detalhadamente as diferenças entre RaBitQ e TurboQuant no artigo, mas, na revisão, “fiquei surpreso ao descobrir que o RaBitQ foi mencionado apenas uma vez na seção experimental do artigo principal”.

Indiscutivelmente, o TurboQuant possui potencial comercial na esfera tecnológica. Um mestre em inteligência artificial analisou no Zhihu que, em cenários de inferência de grandes modelos, o uso de memória KV no cache determina diretamente o número de solicitações que podem ser processadas simultaneamente por uma única GPU, sendo um dos principais indicadores econômicos para provedores de inferência. Com a mesma GPU, aumentar a paralelização em 6 vezes pode reduzir o custo de inferência por solicitação a um sexto do original. Para empresas de IA que lidam com bilhões de chamadas API por dia, isso representa uma redução de custos significativa, motivo pelo qual a ação no mercado de ações foi impactada.

O artigo da Google será publicado na conferência de aprendizado de máquina ICLR 2026 no final de abril, mas parece que a equipe precisa primeiro superar essa controvérsia acadêmica. Como essa tempestade se encerrará, ainda é uma questão a ser observada.

(Este artigo é da First Financial)

Leitura recomendada:

Equipe do TurboQuant com má conduta acadêmica? A Google respondeu, mas a controvérsia só aumentou.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar