O custo de tokenização do idioma chinês do Claude é 65% maior do que o do inglês; a OpenAI é apenas 15% maior

Mensagem do Gate News, 29 de abril — a pesquisadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA traduzindo o artigo seminal de Rich Sutton “The Bitter Lesson” para nove idiomas e processando-os por meio dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: processar o mesmo conteúdo em chinês exigiu 1,65x tokens no Claude, em comparação com apenas 1,15x na OpenAI. O hindi mostrou um resultado ainda mais extremo no Claude, excedendo a base em mais de 3x. A Anthropic ficou na última posição entre os seis modelos testados.

Ponto crítico: quando o mesmo texto em chinês foi processado em diferentes modelos—todos medidos contra a mesma base em inglês—os resultados divergem dramaticamente: a Kimi consumiu apenas 0,81x tokens (menos do que o inglês), o Qwen 0,85x, enquanto o Claude exigiu 1,65x. Essa diferença revela um problema puro de eficiência de tokenização, não uma questão inerente de idioma. Os modelos de chinês demonstraram eficiência superior no processamento do chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do idioma em si.

As implicações práticas para os usuários são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, amplia a latência de resposta dos modelos e esgota as janelas de contexto com mais rapidez. A eficiência de tokenização depende da composição linguística dos dados de treinamento de um modelo—modelos treinados predominantemente em inglês comprimem o texto em inglês de forma mais eficiente, enquanto idiomas com menor representação em dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki ressalta um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto idiomas com menor representação enfrentam custos de token significativamente mais altos.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Pesquisadora de Multimodal da DeepSeek sugere um novo modelo de visão em 29 de abril

Em 29 de abril, a pesquisadora da equipe multimodal da DeepSeek, Xiaokang Chen, publicou no X: "Agora, vemos você," acompanhada por duas imagens do mascote de baleia da DeepSeek — uma com os olhos fechados e outra com os olhos abertos. A postagem parece sugerir um modelo de visão em breve, alinhando-se com o papel de Chen como pesquisadora na equipe multimodal da Dee

GateNews5m atrás

LG Expande Parceria com a Nvidia para IA Física, Abrangendo Robótica e Data Centers

Mensagem do Gate News, 29 de abril — A LG Electronics, da Coreia do Sul, anunciou durante sua teleconferência de resultados do primeiro trimestre de 2026 que está expandindo sua colaboração com a Nvidia para a IA física, com projetos planejados em robótica, mobilidade e data centers. A LG planeja integrar seu robô doméstico CLOiD com a Nvidia

GateNews23m atrás

Analistas de semicondutores estão otimistas com o mercado de IA “pelo menos mais três anos”: empacotamento avançado é o gargalo da indústria

Bubble Boi: Como o ciclo de investimentos em IA ainda está em seu início, ele prevê pelo menos mais três anos de alta e não pretende realizar lucros. Ele acredita que o verdadeiro gargalo dos semicondutores é o avançado empacotamento; é necessário integrar mais HBM e chips maiores no mesmo pacote. Ele é otimista com NAND/Flash, e os preços podem continuar subindo; no futuro, talvez ele também inclua a cadeia de suprimentos de flash. Sua estratégia pessoal é tomar empréstimos para aumentar as posições e, com base em sua experiência em práticas de engenharia, compreender os detalhes técnicos, considerando isso uma vantagem.

ChainNewsAbmedia1h atrás

A AWS expande a integração da OpenAI no Amazon Bedrock

A Amazon Web Services anunciou em 29 de abril uma expansão significativa de sua parceria com a OpenAI, integrando as mais recentes capacidades da OpenAI à sua infraestrutura de nuvem. A expansão traz três novas ofertas para o Amazon Bedrock: os mais recentes modelos da OpenAI (preview limitada), o Codex de programação

CryptoFrontier1h atrás

Pesquisadores da OpenAI: Sistemas de IA Podem Lidar com Grande Parte do Trabalho de Pesquisa em Dois Anos

Mensagem do Gate News, 29 de abril — Pesquisadores da OpenAI, Sébastien Bubeck e Ernest Ryu, dizem que sistemas de IA poderiam realizar a maior parte do trabalho de pesquisa humano dentro de dois anos, apresentando a matemática como uma medida clara do progresso da IA. Diferentemente de testes de desempenho vagos, problemas matemáticos oferecem uma verificação precisa: as respostas são ou corretas ou incorretas, sem espaço para ambiguidades:

GateNews1h atrás

Rei Charles III se reúne com seis CEOs de tecnologia dos EUA, incluindo Jensen Huang, Jeff Bezos e Tim Cook, para discutir financiamento de startups do Reino Unido

Mensagem da Gate News, 29 de abril — Durante sua visita de Estado aos Estados Unidos, o rei Charles III se reuniu com seis proeminentes líderes de tecnologia americanos na Blair House, em Washington: o CEO da NVIDIA, Jensen Huang, o fundador da Amazon, Jeff Bezos, o CEO da Apple, Tim Cook, o CEO da AMD, Su Zifeng, o CEO da Salesforce, Marc Benioff, e

GateNews2h atrás
Comentário
0/400
Sem comentários