Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.
O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.
Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.
Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
OpenAI lança modelo de Filtro de Privacidade open-source para detecção e remoção de PII
Resumo: O Filtro de Privacidade da OpenAI é um modelo de código aberto, executável localmente, que detecta e remove dados pessoais (PII) no texto. Ele oferece suporte a contextos grandes, identifica muitas categorias de PII e é destinado a fluxos de trabalho que preservam a privacidade, como preparação de dados, indexação, registro (logging) e moderação.
O Filtro de Privacidade da OpenAI é um modelo de código aberto executado localmente (128k-token context) que detecta e remove PII no texto, cobrindo dados de contato, financeiros e de credenciais para fluxos de trabalho de privacidade.
GateNews27m atrás
A OpenAI Planeja Implantar 30GW de Capacidade de Computação até 2030
A OpenAI mira 30GW de capacidade de computação até 2030 para atender à crescente demanda por IA, com 8GW já concluídos de uma meta de 10GW para 2025. A expansão sinaliza uma estratégia para ampliar a infraestrutura para o desenvolvimento e a implantação de IA de próxima geração.
A OpenAI pretende atingir 30GW de capacidade de computação até 2030 para acomodar a crescente demanda por IA, tendo já concluído 8GW de uma meta de 10GW para 2025. A medida reflete uma expansão estratégica da infraestrutura para apoiar o desenvolvimento e a implantação de IA de próxima geração.
GateNews28m atrás
Agente de Descoberta de Vulnerabilidades por IA da 360 Encontra Quase 1.000 Exploits de Zero-Day, Competindo com a Mythos
O agente orientado por IA da 360 Digital Security afirma ter encontrado cerca de 1.000 novas vulnerabilidades, incluindo no Office e no OpenClaw; a IA agora é central para a descoberta e a preparação de cadeias de exploração, rivalizando com a Mythos.
Resumo: Um relatório citado pela Bloomberg observa que o Agente de Descoberta de Vulnerabilidades orientado por IA do 360 Digital Security Group identificou quase 1.000 vulnerabilidades previamente desconhecidas nos últimos meses, incluindo no Microsoft Office e no framework OpenClaw. A empresa afirma que a IA se tornou a base central da descoberta de vulnerabilidades e anunciou uma ferramenta de IA para acelerar a construção de cadeias de exploração. Benincasa descreve a 360 como uma concorrente da Mythos, da Anthropic, com base na análise de Natto Thoughts das comunicações da empresa em idioma chinês.
GateNews33m atrás
CEO da Anthropic vai ao encontro da Casa Branca para iniciar conversas amistosas: se reúne com o Chefe de Gabinete e com Bessent para discutir o Mythos
O The Wall Street Journal afirma que o CEO da Anthropic, Amodei, teve um encontro privado na Casa Branca em 17/04, com foco nas fronteiras de segurança nacional e implantação responsável do Mythos; a Casa Branca disse que a reunião foi construtiva, e o mercado vê isso como um descongelamento das relações. A principal divergência é que as forças armadas querem que o Claude seja usado para quaisquer fins legais, enquanto a Anthropic insiste que tem discricionariedade em sua própria política de uso aceitável. Ambas as partes disseram que continuarão o diálogo, para discutir novamente antes do lançamento do Mythos em maio.
ChainNewsAbmedia2h atrás
Google Ironwood TPU: 10x de desempenho + quatro parceiros contra a Nvidia
De acordo com uma reportagem aprofundada da Bloomberg e um anúncio oficial do Google, em 22 de abril o Google expandiu oficialmente sua linha de chips de IA próprios: o Ironwood dedicado a inferência (TPU de 7ª geração) foi disponibilizado integralmente no Google Cloud, e simultaneamente foi iniciada uma colaboração de próxima geração com quatro parceiros — Broadcom, MediaTek, Marvell e Intel — com o objetivo de, por meio de uma cadeia de suprimento de chips sob medida, desafiar de forma positiva a posição dominante da Nvidia no mercado de capacidade de IA.
Ironwood: TPU de 7ª geração, primeira voltada a inferência
O Ironwood é o produto de 7ª geração da série de TPU do Google e o primeiro chip dedicado a inferência sob a estratégia de “separação entre treinamento e inferência”. As especificações reveladas pelo Google: o desempenho de pico por chip é T
ChainNewsAbmedia2h atrás
DeepSeek negocia a primeira rodada de financiamento externo, avaliação de US$ 20 bilhões: novo recorde de avaliação de IA na China
De acordo com a reportagem da Bloomberg de 22 de abril (com exclusividade do The Information), a startup de IA da China, DeepSeek, está em negociações para uma primeira rodada de captação externa, com uma avaliação de 20 bilhões de dólares. Esta é a primeira captação de recursos voltada ao público desde que a DeepSeek foi fundada em 2023; até então, todo o financiamento vinha exclusivamente do fundo quantitativo de hedge High-Flyer Capital Management, de forma interna. A avaliação de 20 bilhões de dólares também é um marco para a startup chinesa de IA, ao marcar sua entrada, pela primeira vez, na segunda metade das avaliações de “cem bilhões de dólares”, ou seja, na faixa abaixo, mas ainda dentro do patamar de “centenas de bilhões”.
Escala da captação e uso dos recursos
A DeepSeek busca pelo menos 300 milhões de dólares na primeira rodada de captação; a avaliação de 20 bilhões de dólares, que foi divulgada inicialmente em 17 de abril pela primeira vez pelo The Information como “acima de 10 bilhões de dólares”, agora dobra
ChainNewsAbmedia2h atrás