Mensagem de notícias do Gate, 24 de abril — A DeepSeek lançou hoje o cartão do modelo V4, validando as previsões arquiteturais anteriores feitas por meio da análise da biblioteca de kernels TileKernels lançada ontem (23 de abril). De acordo com o monitoramento da Beating, três componentes principais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) substituindo o HyperConnection original da ByteDance, arquitetura MoE com roteamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional Engram previsto não apareceu no cartão do modelo.

O cartão do modelo revelou novos componentes não cobertos pelo TileKernels: mecanismos híbridos de atenção (CSA + HCA) impulsionam os ganhos de eficiência de longo contexto do V4, reduzindo as FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e cache KV para 10%. O treinamento agora usa o otimizador Muon.

A verificação demonstra como implementações de kernels em nível de produção podem revelar a arquitetura subjacente do modelo antes de especificações oficiais serem publicadas.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

A prévia do Hy3 open source da Tencent melhora em 40% os testes de benchmark de código em relação à versão anterior

Notícias do setor de IA

A Tencent lançou oficialmente o modelo de linguagem grande Hy3 em versão de prévia no GitHub, no Hugging Face e na plataforma ModelScope em 23 de abril, e também disponibilizou simultaneamente um serviço de API pago no Tencent Cloud. De acordo com uma reportagem da Decrypt em 24 de abril, a versão de prévia do Hy3 iniciou o treinamento no final de janeiro e, até a data de publicação, havia menos de três meses.

MarketWhisper6m atrás

Investimentos do Portfólio da FTX no Valor de 158 Trilhões de Won, Se Não Tivesse Falido

Ações Notícias do setor de IA

FTX, a exchange centralizada de criptomoedas que entrou com pedido de proteção contra falência Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158,796 trilhões de won se não tivesse colapsado, de acordo com uma análise citada por Park

CryptoFrontier9m atrás

Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar

GateNews23m atrás

DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar. No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no

GateNews31m atrás

Qual IA mostra mais claramente seu status e posição? Pesquisa revela que a renda dos usuários do Claude é muito maior do que a de seus pares, e a Meta AI fica na parte de baixo

Notícias do setor de IA

A pesquisa da Epoch AI mostra que os usuários do Claude são predominantemente de faixas de alta renda, com 80% tendo uma renda anual acima de US$ 100.000; a distribuição de renda do Meta AI é a mais ampla, com 36,5% acima de US$ 100.000, e a maior proporção é entre os de baixa renda; com o aumento do preço do Claude e a cobrança por níveis, os custos podem aumentar, enquanto o Meta é mais fácil para começar. Qual IA pode se tornar uma etiqueta de identidade implícita no futuro.

ChainNewsAbmedia36m atrás

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Notícias do setor de IA

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo

GateNews50m atrás

Comentário

0/400

Sem comentários