DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.

Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.

Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom. В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по

GateNews8м назад

С каким ИИ можно наиболее явно показать свой статус и положение? Исследование раскрывает, что доходы пользователей Claude значительно выше, чем у конкурентов; Meta AI внизу

Расследование Epoch AI показывает, что пользователи Claude в основном относятся к группе с высоким доходом: у 80% годовой доход превышает 100 000 долларов США; у Meta AI самое широкое распределение по доходам: 36,5% имеют доход свыше 100 000, при этом самая высокая доля приходится на пользователей с низким доходом; цены на Claude выросли и введена многоуровневая тарификация, поэтому затраты могут увеличиться, в то время как Meta для новичков доступнее. Какая AI в будущем может стать скрытой меткой идентичности.

ChainNewsAbmedia13м назад

V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая

GateNews28м назад

Великобритания изучает Anthropic AI, чтобы усилить кибербезопасность банков

Великобритания изучает крупный шаг в финансовой кибербезопасности, сотрудничая с компанией по ИИ Anthropic. Ранние обсуждения предполагают, что правительство может развернуть продвинутую модель Claude Mythos от Anthropic во всех банках и финансовых учреждениях. Этот шаг направлен на улучшение защиты от киберугроз,

CryptometerIo32м назад

Ведомство по ИС Китая добавило ИИ, полупроводники и интерфейсы «мозг-компьютер» в программу ускоренной защиты

Сообщение Gate News, 24 апреля — Национальное управление по интеллектуальной собственности Китая объявило 24 апреля, что оно создаст всеобъемлющую систему охраны прав интеллектуальной собственности для emerging technologies посредством институциональных реформ, улучшенных услуг и расширенных применений. Управление wi

GateNews39м назад
комментарий
0/400
Нет комментариев