DeepSeek V4 架构已验证:4 个预测中命中 3 个,Engram 模块缺失

Gate News 消息,4 月 24 日——DeepSeek 今天发布了 V4 模型卡,通过对昨日发布的 TileKernels 内核库进行分析,对先前的架构预测进行了验证 (4 月 23 日)。根据 Beating 的监测,确认了三个核心组件:mHC (Manifold-Constrained Hyper-Connections) 替代字节跳动原本的 HyperConnection,采用 Top-k 专家路由的 MoE 架构,以及 FP4+FP8 混合精度权重存储。预测中的 Engram 条件记忆模块未出现在模型卡中。

模型卡揭示了 TileKernels 未涵盖的新组件:混合注意力机制 (CSA + HCA) 推动了 V4 的长上下文效率提升,将推理 FLOPs 降至在 1M 上下文窗口下仅为 V3.2 水平的 27%,并将 KV 缓存降至 10%。训练现在使用 Muon 优化器。

该验证展示了生产级内核实现如何在官方规格发布之前揭示底层模型架构。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

طرحت Tencent كمصدر مفتوح Hy3 في نسخة المعاينة، وقد تحسن أداء الاختبارات القياسية للشفرة بنسبة 40% مقارنة بالإصدار السابق

أطلقت شركة Tencent في 23 أبريل بشكل رسمي نموذجًا لغويًا كبيرًا من نوع Hy3 بإصدار المعاينة المفتوح المصدر على منصات GitHub وHugging Face وModelScope، كما توفر في الوقت نفسه خدمة واجهة برمجة تطبيقات مدفوعة عبر Tencent Cloud. ووفقًا لما ذكرته Decrypt في 24 أبريل، بدأ إصدار Hy3 بإصدار المعاينة التدريب من أواخر يناير، ولم يستغرق إطلاقه أكثر من ثلاثة أشهر بحلول تاريخ النشر.

MarketWhisperمنذ 6 د

استثمارات محفظة FTX بقيمة 158 تريليون وون إذا لم تكن قد أفلتست

FTX، منصة تداول العملات الرقمية المركزية التي قدمت طلبًا لحماية الإفلاس بموجب الفصل 11 في نوفمبر 2022 بسبب نقص السيولة وتدفقات رأس المال الخارجة، كانت ستحتفظ باستثمارات بقيمة تقارب 158.796 تريليون وون إذا لم تكن قد انهارت، وفقًا لتحليل مستشهد به من قِبل Park

CryptoFrontierمنذ 9 د

小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署数千台 GPU

Gate News 信息,4月24日——小米大型语言模型团队负责人罗富莉在一场深入采访中披露,MiMo-V2-Pro 模型总计拥有 1 万亿参数,训练所需数千台 GPU。她指出,1T 规模代表达到性能接近 Claude Opus 4.6 水平并为下一阶段 AI 代理获取具有竞争力的入场券所需的最低门槛

GateNewsمنذ 23 د

DeepSeek V4 在 Putnam-2025 上取得满分成绩,与 Axiom 在形式化数学推理中并列第一

Gate News 消息,4 月 24 日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上取得满分 120/120,与 Axiom 并列第一。 在使用 LeanExplore 与受约束采样的实践模式中,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00

GateNewsمنذ 31 د

ما هي أفضل تقنية ذكاء اصطناعي لإظهار المكانة والهوية؟ تكشف الأبحاث أن دخل مستخدمي Claude يتجاوز دخل منافسيه بكثير، وMeta AI تأتي في ذيل القائمة

أظهرت دراسة Epoch AI أن مستخدمي Claude هم في الغالب من الفئات ذات الدخل المرتفع، حيث تبلغ نسبة 80% من إجمالي الدخل السنوي أكثر من 100,000 دولار أمريكي؛ وتوزيع دخل Meta AI هو الأوسع نطاقًا، إذ أن 36.5% لديهم دخل يتجاوز 100,000، وتُعد نسبة ذوي الدخل المنخفض الأعلى؛ وقد يؤدي ارتفاع سعر Claude واعتماد تسعير مُقسّم إلى زيادة التكاليف، بينما يكون الدخول إلى Meta أسهل. أي نوع من الذكاء الاصطناعي قد يصبح في المستقبل وسمًا ضمنيًا للهوية.

ChainNewsAbmediaمنذ 36 د

V4-Pro在内部自用(dogfooding)测试中实现67%的代码通过率,逼近Opus 4.5性能

Gate News 消息,4月24日——V4已公开披露其V4-Pro模型的内部自用(dogfooding)数据。该公司从50多名工程师处收集了约200项真实世界的工程任务,涵盖功能开发、缺陷修复、重构以及诊断,遍及包括

GateNewsمنذ 50 د
تعليق
0/400
لا توجد تعليقات