Сообщение Gate News, 24 апреля — DeepSeek выпустила сегодня карточку модели V4, подтвердив более ранние архитектурные прогнозы, сделанные в ходе анализа библиотеки ядер TileKernels, выпущенной вчера (23 апреля). По данным мониторинга от Beating, были подтверждены три ключевых компонента: mHC (Manifold-Constrained Hyper-Connections) вместо исходного HyperConnection от ByteDance, архитектура MoE с маршрутизацией Top-k для экспертов и хранение весов со смешанной точностью FP4+FP8. Прогнозируемый условный модуль памяти Engram не появился в карточке модели.

В карточке модели раскрыты новые компоненты, не охваченные TileKernels: гибридные механизмы внимания (CSA + HCA) обеспечивают прирост эффективности V4 в длинном контексте, снижая число FLOPs при инференсе до всего 27% от уровня V3.2 на окнах контекста 1M, а кэш KV — до 10%. Теперь при обучении используется оптимизатор Muon.

Проверка демонстрирует, как реализации ядер уровня production могут раскрывать базовую архитектуру модели до публикации официальных спецификаций.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Tencent выпустила в открытый доступ Hy3 в предварительной версии; базовые тесты кода улучшены на 40% по сравнению с предыдущим поколением

Новости индустрии ИИ

Tencent 4月23日在 GitHub、Hugging Face 以及 ModelScope 平台正式开源 Hy3 预览版大型语言模型，并同步在腾讯云（Tencent Cloud）提供付费 API 服务。据 Decrypt 于 4月24日报道，Hy3 预览版自 1月下旬启动训练，截至发布日历时不足三个月。

MarketWhisper6м назад

Инвестиции FTX в портфель на сумму 158 триллионов вон, если бы компания не обанкротилась

Акции Новости индустрии ИИ

FTX, централизованная криптовалютная биржа, которая подала заявление о защите от банкротства по главе 11 в ноябре 2022 года из-за дефицита ликвидности и оттока капитала, согласно анализу, на который ссылается Пак, при условии, что она не обрушилась бы, удерживала бы инвестиции, оцененные примерно в 158.796 трлн вон.

CryptoFrontier9м назад

Xiaomi раскрывает подробности обучения MiMo-V2-Pro: 1T параметров модели, тысячи развернутых GPU

Новости индустрии ИИ

Сообщение Gate News, 24 апреля — руководитель команды большой языковой модели Xiaomi Луо Фули в подробном интервью раскрыла, что модель MiMo-V2-Pro в сумме имеет 1 триллион параметров и для обучения потребовала тысячи GPU. Она отметила, что масштаб 1T представляет собой минимальный порог для достижения производительности, приближающейся к уровню Claude Opus 4.6, и получения конкурентного входного билета на следующий этап ИИ-агентов

GateNews23м назад

DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Новости индустрии ИИ

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom. В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по

GateNews31м назад

С каким ИИ можно наиболее явно показать свой статус и положение? Исследование раскрывает, что доходы пользователей Claude значительно выше, чем у конкурентов; Meta AI внизу

Новости индустрии ИИ

Расследование Epoch AI показывает, что пользователи Claude в основном относятся к группе с высоким доходом: у 80% годовой доход превышает 100 000 долларов США; у Meta AI самое широкое распределение по доходам: 36,5% имеют доход свыше 100 000, при этом самая высокая доля приходится на пользователей с низким доходом; цены на Claude выросли и введена многоуровневая тарификация, поэтому затраты могут увеличиться, в то время как Meta для новичков доступнее. Какая AI в будущем может стать скрытой меткой идентичности.

ChainNewsAbmedia36м назад

V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

Новости индустрии ИИ

Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая

GateNews50м назад

комментарий

0/400

Нет комментариев