Yifan Zhang divulga as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 especialistas com 6 ativações

Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros.

O modelo utiliza o mecanismo de atenção DSA2, que combina a anterior DSA (DeepSeek Sparse Attention) da DeepSeek da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeça de 512 dimensões, em conjunto com a Sparse Multi-Query Attention (MQA) e a Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas, com 6 ativados por passagem forward, utilizando o Fused MoE Mega-Kernel. As ligações residuais recorrem à arquitectura Hyper-Connections.

Os detalhes de treino revelados pela primeira vez incluem o uso do optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treino de 32K tokens e o GRPO (Group Relative Policy Optimization) com correcção de divergência KL durante a aprendizagem por reforço. A janela de contexto final estende-se até 1 milhão de tokens. O modelo é apenas de texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A OpenAI lança um modelo de Filtro de Privacidade open-source para deteção e redação de PII

Resumo: O Filtro de Privacidade da OpenAI é um modelo open-source, executável localmente, que detecta e redige PII em texto. Suporta contextos grandes, identifica muitas categorias de PII e destina-se a fluxos de trabalho de preservação da privacidade, como preparação de dados, indexação, registo (logging) e moderação. O Filtro de Privacidade da OpenAI é um modelo open-source executado localmente (128k-token context) que detecta e redige PII em texto, cobrindo dados de contacto, financeiros e de credenciais para fluxos de trabalho de privacidade.

GateNews28m atrás

A OpenAI planeia implementar 30GW de capacidade de computação até 2030

A OpenAI pretende atingir 30GW de capacidade de computação até 2030 para fazer face ao aumento das necessidades de IA, tendo já concluído 8GW de uma meta de 10GW para 2025. A expansão sinaliza uma estratégia para ampliar a infra-estrutura para o desenvolvimento e a implementação de IA de próxima geração. A OpenAI pretende chegar a 30GW de capacidade de computação até 2030 para acomodar a crescente procura por IA, tendo já concluído 8GW de uma meta de 10GW para 2025. A medida reflecte uma expansão estratégica da infra-estrutura para apoiar o desenvolvimento e a implementação de IA de próxima geração.

GateNews28m atrás

Agente de Descoberta de Vulnerabilidades por IA da 360 encontra quase 1.000 explorações de zero-day, competindo com a Mythos

O agente orientado por IA da 360 Digital Security afirma ter encontrado cerca de 1.000 novas vulnerabilidades, incluindo no Office e no OpenClaw; a IA é agora central para a descoberta e para a preparação da cadeia de exploração, rivalizando com a Mythos. Resumo: Um relatório citado pela Bloomberg assinala que o Agente de Descoberta de Vulnerabilidades orientado por IA da 360 Digital Security Group identificou quase 1.000 vulnerabilidades previamente desconhecidas nos últimos meses, incluindo no Microsoft Office e no framework OpenClaw. A empresa afirma que a IA se tornou o motor central da descoberta de vulnerabilidades e anunciou uma ferramenta de IA para acelerar a construção de cadeias de exploração. Benincasa caracteriza a 360 como uma concorrente da Mythos, da Anthropic, com base na análise da Natto Thoughts às comunicações da empresa em língua chinesa.

GateNews33m atrás

CEO da Anthropic vai ao Salão Oval para quebrar o gelo: reúne-se com o Chefe de Gabinete e com Besent para discutir Mythos

O Wall Street Journal afirma que o CEO da Anthropic, Amodei, teve uma reunião privada no dia 17/4 com a Casa Branca, centrada nos limites de segurança nacional do Mythos e na implementação responsável; a Casa Branca disse que a reunião foi construtiva e o mercado vê isso como um descongelar das relações. A principal divergência é que o sector militar quer o Claude para todos os usos legais, enquanto a Anthropic sustenta a discricionariedade da sua própria política de utilização aceitável. Ambas as partes afirmaram que continuarão o diálogo e voltarão a discutir antes do lançamento do Mythos em maio.

ChainNewsAbmedia2h atrás

Google Ironwood TPU: desempenho 10x + quatro parceiros a enfrentar a Nvidia

De acordo com um relatório aprofundado da Bloomberg e um anúncio oficial da Google, a Google expandiu formalmente, a 22 de abril, a sua gama de chips de IA desenvolvidos internamente: o Ironwood, um chip dedicado a inferência (TPU da 7.ª geração), está agora disponível de forma abrangente no Google Cloud, e em paralelo foi iniciado um trabalho conjunto para a próxima geração de designs com quatro parceiros — Broadcom, MediaTek, Marvell e Intel. O objectivo é, através de uma cadeia de abastecimento de chips à medida, desafiar de forma positiva a posição dominante da Nvidia no mercado de capacidade de computação para IA. Ironwood: TPU da 7.ª geração, primeiro chip dedicado a inferência concebido para esse fim O Ironwood é o produto da 7.ª geração da série de TPU da Google e o primeiro chip dedicado a inferência no âmbito da estratégia de “separação entre treino e inferência”. As especificações reveladas pela Google: a performance de pico por chip é T

ChainNewsAbmedia2h atrás

DeepSeek discute a primeira ronda de financiamento externo, avaliação de 20 mil milhões de dólares: nova máxima na avaliação de IA na China

De acordo com uma reportagem da Bloomberg de 22 de Abril (citando a exclusividade do The Information), a nova empresa chinesa de IA DeepSeek está em negociações para uma primeira ronda de financiamento externo, com uma avaliação de 20 mil milhões de dólares. Este é o primeiro financiamento externo da DeepSeek desde a sua criação em 2023; anteriormente, foi financiada totalmente com fundos internos pelo fundo de hedge quantitativo High-Flyer Capital Management. Uma avaliação de 20 mil milhões de dólares é também um marco para a nova empresa chinesa de IA na sua primeira entrada no segundo semestre da categoria de “avaliações na casa dos 10 mil milhões de dólares”. Dimensão do financiamento e utilização dos fundos A DeepSeek procura pelo menos 300 milhões de dólares na primeira ronda de financiamento; uma avaliação de 20 mil milhões de dólares volta a duplicar a avaliação de “mais de 10 mil milhões de dólares” inicialmente divulgada a 17 de Abril pelo The Information.

ChainNewsAbmedia2h atrás
Comentar
0/400
Nenhum comentário