Сообщение Gate News, 22 апреля — студент Принстонского PhD Ифань Чжан раскрыл полные технические спецификации DeepSeek V4 в X, после превью от 19 апреля. V4 имеет 1,6 трлн общих параметров и облегчённую версию V4-Lite с 285 млрд параметров.

Модель использует механизм внимания DSA2, который сочетает прежний DSA (DeepSeek Sparse Attention) из V3.2 и NSA (Native Sparse Attention) с векторами представления голов 512 измерений, в паре с Sparse Multi-Query Attention (MQA) и Sliding Window Attention (SWA). Слой MoE (Mixture of Experts) содержит 384 эксперта, из которых активируются 6 за один прямой проход, с использованием Fused MoE Mega-Kernel. Остаточные соединения используют архитектуру Hyper-Connections.

Детали обучения, раскрытые впервые, включают использование оптимизатора Muon (applying Newton-Schulz orthogonalization to momentum updates) для обновлений по импульсу, контекстное окно предобучения на 32K токенов и GRPO (Group Relative Policy Optimization) с коррекцией по расхождению KL во время обучения с подкреплением. Итоговое контекстное окно расширено до 1 млн токенов. Модель — только текстовая.

Чжан не работает в DeepSeek, и компания официально не прокомментировала раскрытую информацию.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн

Новости индустрии ИИ

Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация. Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.

GateNews28м назад

OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году

Новости индустрии ИИ

OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения. OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.

GateNews28м назад

Агент 360 для обнаружения уязвимостей на базе ИИ находит почти 1 000 нулевых дней с эксплойтом, конкурируя с Mythos

ИИ-агент Новости индустрии ИИ

Агент на базе ИИ от 360 Digital Security утверждает, что нашёл около 1 000 новых уязвимостей, включая в Office и OpenClaw; сейчас ИИ является ключевым для обнаружения и подготовки цепочек эксплуатации, соперничая с Mythos. Абстракт: В отчёте, на который ссылается Bloomberg, говорится, что Vulnerability Discovery Agent компании 360 Digital Security на базе ИИ выявил почти 1 000 ранее неизвестных уязвимостей за последние месяцы, включая уязвимости в Microsoft Office и в фреймворке OpenClaw. Компания заявляет, что ИИ стал основным движком для обнаружения уязвимостей, и объявила об инструменте на базе ИИ, который ускорит построение цепочек эксплуатации. Бенинкаса описывает 360 как конкурента Mythos от Anthropic на основе обзора китайскоязычных анонсов компании, сделанного Natto Thoughts.

GateNews33м назад

Глава Anthropic едет в Белый дом на встречу для ледокольного старта: обсуждение с руководителем аппарата, Бессентом Mythos

Новости индустрии ИИ

The Wall Street Journal reports that on 4/17, Anthropic CEO Amodei met privately with the White House, focusing on Mythos’s national security boundary and responsible deployment; the White House said the meeting was constructive, and the market views it as a thaw in relations. The core disagreement is that the military wants Claude for all lawful purposes, while Anthropic insists on its own policy discretion for acceptable use. Both sides said they will continue the dialogue and discuss again before Mythos goes live in May.

ChainNewsAbmedia2ч назад

Google Ironwood TPU: 10-кратная производительность + четыре партнёра против Nvidia

Новости индустрии ИИ

Согласно углубленному репортажу Bloomberg и официальному объявлению Google, 22 апреля Google официально расширила линейку собственных ИИ-чипов: чип для вывода Ironwood (7-е поколение TPU) теперь полностью доступен в Google Cloud, а также одновременно запущено сотрудничество по разработке следующего поколения с партнерами Broadcom, MediaTek, Marvell и Intel. Цель — за счет ориентированной на заказ цепочки поставок чипов бросить прямой вызов доминирующему положению Nvidia на рынке ИИ-вычислительных мощностей. Ironwood: 7-е поколение TPU, впервые созданный специально для вывода Ironwood — продукт Google TPU серии седьмого поколения и первая специализированная микросхема для вывода в рамках стратегии «разделения обучения и вывода». Обнародованные Google спецификации: пиковая производительность на одном чипе составляет T

ChainNewsAbmedia2ч назад

DeepSeek обсуждает первый раунд внешнего финансирования, оценка 20 млрд долларов: новая максимальная оценка для китайской индустрии ИИ

Новости индустрии ИИ

Согласно сообщению Bloomberg от 22 апреля (со ссылкой на эксклюзив The Information), китайский AI-стартап DeepSeek ведет переговоры о первом раунде внешнего финансирования с оценкой до 20 миллиардов долларов. Это первое внешнее привлечение средств для DeepSeek с момента его основания в 2023 году; ранее оно полностью финансировалось за счет внутренних средств количественного хедж-фонда High-Flyer Capital Management. Оценка в 20 миллиардов долларов также является вехой: впервые китайский AI-стартап вошел во «вторую половину» диапазона «оценок в сто миллиардов долларов», то есть ниже него, впервые — с таким уровнем. Размер финансирования и цели использования средств DeepSeek ищет как минимум 300 миллионов долларов в первом раунде финансирования; оценка в 20 миллиардов долларов снова удваивает оценку «свыше 10 миллиардов долларов», впервые раскрытую The Information 17 апреля

ChainNewsAbmedia2ч назад

комментарий

0/400

Нет комментариев