DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

DeepSeek V4 Досягає Ідеального Результату на Putnam-2025, Порівнюється з Axiom у Формальному Математичному Міркуванні

Новини Gate, 24 квітня — DeepSeek V4 опублікував результати оцінювання формального математичного міркування, досягнувши ідеального результату 120/120 на Putnam-2025, поділивши перше місце з Axiom. У практичному режимі із використанням LeanExplore та обмеженого семплінгу V4-Flash-Max набрав 81.00 на

GateNews8хв. тому

З яким ШІ найелегантніше показати свій статус і становище? Дослідження показує, що дохід користувачів Claude значно перевищує показники конкурентів, а Meta AI — на дні

Дослідження Epoch AI показує, що користувачі Claude здебільшого належать до груп із високими доходами: 80% мають річний дохід понад 100 тис. доларів США; розподіл доходів у Meta AI є найширшим — 36,5% отримують понад 100 тис., а частка людей із низькими доходами є найвищою; через підвищення ціни на Claude та розшароване ціноутворення витрати можуть зрости, тоді як Meta має простіший вхід. Яка з майбутніх AI може стати неявною ідентифікаційною ознакою.

ChainNewsAbmedia13хв. тому

V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема

GateNews28хв. тому

Британія стежить за Anthropic AI, щоб посилити кібербезпеку банківського сектору

Сполучене Королівство вивчає важливий крок у фінансовій кібербезпеці, працюючи з компанією з AI Anthropic. Ранні обговорення вказують, що уряд може розгорнути вдосконалену модель Claude Mythos від Anthropic у банках і фінансових установах. Цей крок має на меті посилити захист, оскільки кіберзагрози

CryptometerIo32хв. тому

Офіс IP Китаю додає ШІ, напівпровідники та мозково-комп’ютерні інтерфейси до програми прискореного захисту

Повідомлення Gate News, 24 квітня — Національне управління з інтелектуальної власності Китаю 24 квітня оголосило, що створить комплексний захист прав інтелектуальної власності для нових технологій шляхом інституційних реформ, розширених послуг і впровадження ширших застосувань. Управління wi

GateNews39хв. тому
Прокоментувати
0/400
Немає коментарів