Повідомлення Gate News, 24 квітня — DeepSeek сьогодні опублікував картку моделі V4, підтвердивши раніші архітектурні припущення, зроблені шляхом аналізу бібліотеки ядер TileKernels, випущеної вчора (23 квітня). Згідно з моніторингом від Beating, було підтверджено три ключові компоненти: mHC (Manifold-Constrained Hyper-Connections) замість оригінального HyperConnection від ByteDance, архітектуру MoE з маршрутизацією експертів Top-k та змішане прецизійне зберігання ваг FP4+FP8. Прогнозований умовний модуль пам’яті Engram не з’явився в картці моделі.

Картка моделі розкрила нові компоненти, не охоплені TileKernels: гібридні механізми уваги (CSA + HCA) забезпечують приріст ефективності V4 у довгому контексті, зменшуючи FLOPs під час інференсу лише до 27% рівня V3.2 на вікнах контексту 1M, а KV cache — до 10%. Тепер для тренування використовується оптимізатор Muon.

Ця верифікація демонструє, як реалізації ядер на рівні виробництва можуть розкривати базову архітектуру моделі ще до публікації офіційних специфікацій.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Tencent випустила Hy3 у прев’ю-версії з відкритим кодом, тест продуктивності коду порівняно з попередньою версією покращено на 40%

Новини індустрії ШІ

Tencent 4 травня 23 числа офіційно відкрив вихідний код попередньої версії великої мовної моделі Hy3 на платформах GitHub, Hugging Face та ModelScope, а також паралельно надає платні API-послуги через Tencent Cloud. За повідомленням Decrypt від 24 квітня, попередня версія Hy3 розпочала навчання наприкінці січня, і на момент дати публікації минуло менше ніж три місяці.

MarketWhisper6хв. тому

Інвестиції портфеля FTX на суму 158 трильйонів вонів, якщо б вона не збанкрутувала

Акції Новини індустрії ШІ

FTX, централізована криптовалютна біржа, яка подала на захист від банкрутства згідно з Chapter 11 у листопаді 2022 року через нестачу ліквідності та відплив капіталу, мала б утримувати інвестиції вартістю приблизно 158.796 трлн вонів, якби вона не збанкрутувала, згідно з аналізом, на який посилається Парк

CryptoFrontier9хв. тому

Xiaomi Reveals MiMo-V2-Pro Training Details: 1T Model Parameters, Thousands of GPUs Deployed

Новини індустрії ШІ

Gate News message, April 24 — Xiaomi's large language model team lead Luo Fuli disclosed in an in-depth interview that the MiMo-V2-Pro model has 1 trillion parameters in total and required thousands of GPUs for training. She noted that the 1T scale represents the minimum threshold to achieve

GateNews23хв. тому

DeepSeek V4 Досягає Ідеального Результату на Putnam-2025, Порівнюється з Axiom у Формальному Математичному Міркуванні

Новини індустрії ШІ

Новини Gate, 24 квітня — DeepSeek V4 опублікував результати оцінювання формального математичного міркування, досягнувши ідеального результату 120/120 на Putnam-2025, поділивши перше місце з Axiom. У практичному режимі із використанням LeanExplore та обмеженого семплінгу V4-Flash-Max набрав 81.00 на

GateNews31хв. тому

З яким ШІ найелегантніше показати свій статус і становище? Дослідження показує, що дохід користувачів Claude значно перевищує показники конкурентів, а Meta AI — на дні

Новини індустрії ШІ

Дослідження Epoch AI показує, що користувачі Claude здебільшого належать до груп із високими доходами: 80% мають річний дохід понад 100 тис. доларів США; розподіл доходів у Meta AI є найширшим — 36,5% отримують понад 100 тис., а частка людей із низькими доходами є найвищою; через підвищення ціни на Claude та розшароване ціноутворення витрати можуть зрости, тоді як Meta має простіший вхід. Яка з майбутніх AI може стати неявною ідентифікаційною ознакою.

ChainNewsAbmedia36хв. тому

V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема

GateNews50хв. тому

Прокоментувати

0/400

Немає коментарів