Mensagem de notícias da Gate, 24 de Abril — A DeepSeek lançou hoje o modelo V4, validando previsões arquitectónicas anteriores feitas através da análise da biblioteca de kernels TileKernels lançada ontem (23 de Abril). De acordo com o acompanhamento da Beating, três componentes centrais foram confirmados: mHC (Manifold-Constrained Hyper-Connections) a substituir o HyperConnection original da ByteDance, arquitectura MoE com encaminhamento de especialistas Top-k, e armazenamento de pesos de precisão mista FP4+FP8. O módulo de memória condicional do Engram previsto não apareceu no modelo.
O modelo revelou novos componentes não abrangidos pela TileKernels: mecanismos de atenção híbrida (CSA + HCA) impulsionam as melhorias de eficiência de longo contexto do V4, reduzindo os FLOPs de inferência para apenas 27% do nível do V3.2 em janelas de contexto de 1M e a cache KV para 10%. O treino agora usa o optimizador Muon.
A verificação demonstra como implementações de kernels ao nível da produção podem revelar a arquitectura subjacente do modelo antes de as especificações oficiais serem publicadas.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
A Tencent disponibiliza como open source o Hy3 (versão de pré-visualização), com testes de referência do código melhorados em 40% face à geração anterior
A Tencent abriu oficialmente em código aberto o modelo linguístico de grande dimensão Hy3 em versão de pré-visualização a 23 de abril nas plataformas GitHub, Hugging Face e ModelScope, e disponibilizou em simultâneo um serviço de APIs pagas no seu serviço de nuvem (Tencent Cloud). Segundo a Decrypt, a 24 de abril, a versão de pré-visualização Hy3 iniciou o treino em finais de janeiro e, aquando do calendário de publicação, tinha menos de três meses.
MarketWhisper6m atrás
Investimentos da Carteira da FTX no Valor de 158 biliões Won se não tivesse falido
FTX, a bolsa centralizada de criptomoedas que pediu proteção contra falência ao abrigo do Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158.796 biliões de won se não tivesse entrado em colapso, de acordo com uma análise citada por Park
CryptoFrontier9m atrás
A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas
Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter
GateNews23m atrás
DeepSeek V4 Obtém Pontuação Perfeita no Putnam-2025, Empata com a Axiom em Raciocínio Matemático Formal
Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.
No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no
GateNews31m atrás
Que IA é a mais marcante para afirmar estatuto e posição? Um estudo revela que os utilizadores do Claude ganham muito mais do que os seus pares, e a Meta AI fica no fundo
A investigação da Epoch AI indica que os utilizadores da Claude são maioritariamente de estratos de rendimentos elevados: 80% auferem mais de 100.000 dólares por ano; a distribuição de rendimentos da Meta AI é a mais ampla, com 36,5% acima dos 100.000 dólares, e a fatia de rendimentos mais baixos é a mais elevada; com a Claude, o preço subiu e existe faturação por níveis, pelo que os custos poderão aumentar; a Meta é mais fácil de começar. Qual das próximas IAs poderá tornar-se numa etiqueta de identidade implícita.
ChainNewsAbmedia36m atrás
V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5
Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo
GateNews50m atrás