Message de Gate News, 22 avril — Le doctorant de Princeton Yifan Zhang a divulgué sur X les spécifications techniques complètes de DeepSeek V4, après un aperçu le 19 avril. V4 affiche 1,6 trillion de paramètres au total et une variante légère, V4-Lite, avec 285 milliards de paramètres.

Le modèle emploie le mécanisme d’attention DSA2, qui combine l’ancienne attention DSA (DeepSeek Sparse Attention) de DeepSeek issue de la V3.2 et la NSA (Native Sparse Attention) avec des embeddings de tête de dimension 512, associée à l’attention à requêtes multiples clairsemées (MQA) et à l’attention à fenêtre glissante (SWA). La couche MoE (Mixture of Experts) contient 384 experts avec 6 experts activés par passe avant, en utilisant le méga-kernel MoE fusionné. Les connexions résiduelles utilisent l’architecture Hyper-Connections.

Les détails d’entraînement révélés pour la première fois incluent l’utilisation de l’optimiseur Muon (applying Newton-Schulz orthogonalization to momentum updates), une fenêtre de contexte de préentraînement de 32K tokens, et GRPO (Group Relative Policy Optimization) avec correction par divergence KL pendant l’apprentissage par renforcement. La fenêtre de contexte finale s’étend jusqu’à 1 million de tokens. Le modèle est text-only.

Zhang n’est pas employé par DeepSeek, et l’entreprise n’a fait aucun commentaire officiel sur les informations divulguées.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

OpenAI publie un modèle de filtre de confidentialité open source pour la détection et la suppression des PII

Actualités de l’industrie de l’IA

Résumé : Le filtre de confidentialité d’OpenAI est un modèle open source exécutable localement qui détecte et supprime les données personnelles (PII) dans le texte. Il prend en charge de vastes contextes, identifie de nombreuses catégories de PII et est conçu pour des flux de travail axés sur la confidentialité tels que la préparation des données, l’indexation, la journalisation et la modération. Le filtre de confidentialité d’OpenAI est un modèle open source exécuté localement (contexte de 128 000 jetons) qui détecte et supprime les PII dans le texte, couvrant les données de contact, financières et d’identifiants pour des flux de travail liés à la confidentialité.

GateNewsIl y a 28m

OpenAI prévoit de déployer 30 GW de puissance de calcul d’ici 2030

Actualités de l’industrie de l’IA

OpenAI vise 30 GW de capacité de calcul d’ici 2030 pour répondre à la hausse des besoins en IA, avec 8 GW déjà achevés sur l’objectif de 10 GW pour 2025. L’expansion signale une stratégie visant à développer l’infrastructure pour le développement et le déploiement d’une IA de nouvelle génération. OpenAI prévoit d’atteindre 30 GW de puissance de calcul d’ici 2030 afin de répondre à la demande croissante en IA, ayant déjà réalisé 8 GW sur un objectif de 10 GW pour 2025. La démarche traduit une expansion stratégique de l’infrastructure pour soutenir le développement et le déploiement d’une IA de nouvelle génération.

GateNewsIl y a 28m

L’agent de découverte de vulnérabilités par IA de 360 trouve près de 1 000 exploits de type zero-day, en concurrence avec Mythos

Agent IA Actualités de l’industrie de l’IA

L’agent piloté par IA de 360 Digital Security affirme avoir découvert environ 1 000 nouvelles vulnérabilités, notamment dans Office et OpenClaw ; l’IA est désormais au cœur de la découverte et de la préparation de la chaîne d’exploitation, rivalisant avec Mythos. Résumé : Un rapport cité par Bloomberg indique que l’agent de découverte de vulnérabilités piloté par IA de 360 Digital Security Group a identifié près de 1 000 vulnérabilités auparavant inconnues ces derniers mois, notamment dans Microsoft Office et le framework OpenClaw. La société affirme que l’IA est devenue le moteur central de la découverte des vulnérabilités et a annoncé un outil d’IA pour accélérer la construction des chaînes d’exploitation. Benincasa décrit 360 comme un concurrent de Mythos d’Anthropic, sur la base de la revue des annonces en langue chinoise de la société par Natto Thoughts.

GateNewsIl y a 33m

Le PDG d’Anthropic se rend à la Maison-Blanche pour briser la glace : échanges avec le chef de cabinet et Bezner autour de Mythos

Actualités de l’industrie de l’IA

Le Wall Street Journal rapporte que le PDG d’Anthropic, Amodei, a rencontré le 17/04 le gouvernement de la Maison-Blanche à huis clos, en se concentrant sur les limites de la sécurité nationale et sur un déploiement responsable de Mythos ; la Maison-Blanche affirme que la réunion a été constructive, tandis que le marché y voit un signe de dégel des relations. Le principal point de divergence est que l’armée veut que Claude soit autorisé pour tous les usages légaux, tandis qu’Anthropic insiste sur le fait que sa propre politique d’utilisation acceptable relève de son pouvoir discrétionnaire. Les deux parties ont déclaré vouloir poursuivre le dialogue, avant de reparler avant le lancement de Mythos en mai.

ChainNewsAbmediaIl y a 2h

Google Ironwood TPU : 10 fois les performances + quatre partenaires contre Nvidia

Actualités de l’industrie de l’IA

Selon un reportage approfondi de Bloomberg et une annonce officielle de Google, Google a officiellement élargi le 22 avril sa gamme de puces d’IA conçues en interne : l’Ironwood, dédié au calcul d’inférence (TPU de septième génération), est désormais disponible à grande échelle sur Google Cloud, et le groupe lance en parallèle des collaborations de conception de prochaine génération avec Broadcom, MediaTek, Marvell et Intel. L’objectif est de contester de front la position dominante de Nvidia sur le marché des capacités de calcul pour l’IA via des chaînes d’approvisionnement de puces sur mesure. Ironwood : TPU de septième génération, première puce conçue spécifiquement pour l’inférence Ironwood est le produit de septième génération de la gamme de TPU de Google, et la première puce dédiée à l’inférence dans le cadre de la stratégie « séparation entre entraînement et inférence ». Les spécifications révélées par Google : la performance de pointe par puce est de T

ChainNewsAbmediaIl y a 2h

DeepSeek discute d’un premier tour de financement externe, valorisation 20 milliards de dollars : nouveau sommet pour l’évaluation de l’IA en Chine

Actualités de l’industrie de l’IA

Selon un article de Bloomberg du 22 avril (y compris l’exclusivité de The Information), la startup chinoise d’IA DeepSeek est en discussions pour un premier tour de financement externe, avec une valorisation atteignant 20 milliards de dollars. C’est la première levée de fonds externe pour DeepSeek depuis sa création en 2023 ; auparavant, l’entreprise était entièrement financée en interne par le fonds spéculatif quantitatif High-Flyer Capital Management. Une valorisation de 20 milliards de dollars constitue également une étape marquante pour les startups chinoises d’IA, en étant pour la première fois dans la seconde moitié de la fourchette « valorisation de 100 milliards de dollars » de référence. Montant du financement et utilisation des fonds DeepSeek cherche au moins 300 millions de dollars pour son premier tour de financement ; la valorisation de 20 milliards de dollars double à nouveau par rapport à l’évaluation « supérieure à 10 milliards de dollars » divulguée pour la première fois plus tôt le 17 avril par The Information.

ChainNewsAbmediaIl y a 2h

Commentaire

0/400

Aucun commentaire