Message Gate News, 24 avril — DeepSeek a publié aujourd’hui la fiche du modèle V4, validant les prédictions d’architecture antérieures faites à partir de l’analyse de la bibliothèque de noyaux TileKernels publiée hier (23 avril). D’après le suivi par Beating, trois composants principaux ont été confirmés : mHC (Manifold-Constrained Hyper-Connections) remplaçant le HyperConnection original de ByteDance, une architecture MoE avec routage d’experts Top-k, et un stockage des poids en précision mixte FP4+FP8. Le module de mémoire conditionnelle Engram prédit n’apparaît pas dans la fiche du modèle.

La fiche du modèle a révélé de nouveaux composants non couverts par TileKernels : des mécanismes d’attention hybrides (CSA + HCA) qui font progresser l’efficacité du long contexte de V4, réduisant les FLOPs d’inférence à seulement 27 % du niveau de V3.2 pour des fenêtres de contexte de 1 M et une mémoire cache KV à 10 %. L’entraînement utilise désormais l’optimiseur Muon.

Cette vérification montre comment des implémentations de noyaux de niveau production peuvent révéler l’architecture sous-jacente du modèle avant que les spécifications officielles ne soient publiées.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Tencent lance Hy3 en version d’aperçu open source, les tests de référence du code améliorent de 40 % par rapport à l’ancienne version

Actualités de l’industrie de l’IA

Tencent a officiellement publié en open source le modèle de langage de grande taille Hy3 (version d’aperçu) sur GitHub, Hugging Face et ModelScope le 23 avril, et a également proposé un service d’API payant via le cloud de Tencent (Tencent Cloud). D’après un rapport de Decrypt daté du 24 avril, la version d’aperçu de Hy3 a été lancée pour l’entraînement à la fin du mois de janvier et, au moment de la date de publication, moins de trois mois s’étaient écoulés.

MarketWhisperIl y a 6m

Les investissements de portefeuille de FTX d’une valeur de 158 000 milliards de won s’ils n’avaient pas fait faillite

Actions Actualités de l’industrie de l’IA

FTX, la bourse centralisée de cryptomonnaies qui a déposé une demande de protection contre la faillite au titre du Chapter 11 en novembre 2022 en raison de pénuries de liquidités et de sorties de capitaux, aurait conservé des investissements évalués à environ 158,796 billions de won si elle n'avait pas fait faillite, selon une analyse citée par Park

CryptoFrontierIl y a 9m

Xiaomi dévoile des détails sur l’entraînement du MiMo-V2-Pro : paramètres du modèle 1T, milliers de GPUs déployés

Actualités de l’industrie de l’IA

Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA

GateNewsIl y a 23m

DeepSeek V4 obtient un score parfait sur Putnam-2025, à égalité avec Axiom en raisonnement mathématique formel

Actualités de l’industrie de l’IA

Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place. Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le

GateNewsIl y a 31m

Quelle IA rend le plus manifestement votre statut et votre position ? Une étude révèle que les revenus des utilisateurs de Claude dépassent largement ceux de ses concurrents, Meta AI en fait le bas du classement

Actualités de l’industrie de l’IA

Une enquête d’Epoch AI montre que les utilisateurs de Claude appartiennent majoritairement à des catégories à revenus élevés : 80 % ont un revenu annuel supérieur à 100 000 dollars ; Meta AI a la distribution de revenus la plus large, 36,5 % dépassant 100 000, et la part des faibles revenus est la plus élevée ; avec Claude, une hausse des prix et une tarification par paliers peuvent faire augmenter les coûts, tandis que l’accès à Meta est plus facile. Quel AI sera utilisé à l’avenir, pourrait devenir une étiquette d’identité implicite.

ChainNewsAbmediaIl y a 36m

V4‑Pro atteint un taux de réussite de 67 % en codage lors d’un test d’auto-utilisation interne, se rapprochant des performances d’Opus 4.5

Actualités de l’industrie de l’IA

Message d’actualités Gate, 24 avril — V4 a divulgué publiquement des données internes de tests d’auto-utilisation (dogfooding) pour son modèle V4‑Pro. La société a collecté environ 200 tâches d’ingénierie issues du monde réel auprès de plus de 50 ingénieurs, couvrant le développement de fonctionnalités, la correction de bogues, la refactorisation et le diagnostic sur des piles technologiques incluant

GateNewsIl y a 50m

Commentaire

0/400

Aucun commentaire