Повідомлення Gate News, 24 квітня — сьогодні Cambricon оголосила, що завершила адаптацію Day 0 для DeepSeek-V4, останньої великої мовної моделі від DeepSeek, використовуючи власну програмну екосистему NeuWare та фреймворк vLLM. Код адаптації було відкрито одночасно, що позначає другий поспіль випадок, коли Cambricon надала нативну підтримку чипів у день запуску нової моделі DeepSeek.
Щоб оптимізувати нову архітектуру DeepSeek-V4, Cambricon використала свою бібліотеку операторів високої продуктивності Torch-MLU-Ops для спеціалізованого прискорення модулів, зокрема Compressor та mHC. Компанія також застосувала мову програмування BangC для розробки високооптимізованих ядер для критично важливих операторів, таких як розріджена/стиснена Attention та GroupGemm, повністю використовуючи наявні можливості апаратного забезпечення. Попередні зусилля спільної оптимізації програмного й апаратного забезпечення між цими двома компаніями досягли показників використання обчислень на рівні, що лідирує в галузі.
DeepSeek-V4, який сьогодні запущено й який має відкритий вихідний код, містить розширене контекстне вікно на мільйон токенів, потужні можливості Agent і видатну продуктивність в інференсі. Cambricon заявила, що DeepSeek-V4, який нативно працює на чипах Cambricon, є значущою віхою для індустрії AI Китаю.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Cursor розкриває причину тренування XAI: обчислювальні потужності були затиснуті, SpaceX додатково має 60 мільярдів доларів на опціони на придбання
Оголошення Anysphere стверджує, що Cursor буде навчати нову модель разом із xAI на основі інфраструктури Colossus, щоб подолати вузьке місце з обчислювальною потужністю; SpaceX запропонувала опціон на придбання на 60 мільярдів доларів США (можна здійснити повне придбання протягом 2026 року), а якщо ні — сплатити приблизно 10 мільярдів доларів США як компенсацію за співпрацю. Обидві угоди відбуваються одночасно, змінюючи те, хто зможе навчати Cursor і хто зможе викупити Cursor; Cursor досі дозволяє багатьом бекендам моделей, але в довгостроковій перспективі все залежить від того, чи здійснить SpaceX своє право на придбання.
ChainNewsAbmedia9хв. тому
Anthropic 二级市场估值突破 1 万亿美元:Forge Global 反超 OpenAI 的 8,800 亿
Згідно з повідомленням Decrypt, вторинна оцінка Anthropic компанії Forge Global становить приблизно 1 трлн доларів США, а OpenAI — близько 880 млрд доларів США; на вторинному ринку вперше зафіксовано лідируючий розворот. ARR Anthropic зросла приблизно з 9 млрд на кінець 2025 року до приблизно 30 млрд у березні 2026 року — за три місяці на 233%, що підштовхнуло приватні оцінки. Вторинна оцінка відрізняється від первинного фінансування: вона відображає впевненість у виході; у майбутньому й далі дивляться на чотири напрями — технології, політику, бізнес і наратив.
ChainNewsAbmedia10хв. тому
Meta Platforms планує скоротити штат на 10% 20 травня, зачепивши приблизно 8 000 посад
Повідомлення Gate News, 24 квітня — Meta Platforms планує скоротити штат приблизно на 10%, що торкнеться приблизно 8 000 посад, 20 травня. Звільнення мають на меті підвищити операційну ефективність, одночасно збільшуючи інвестиції в штучний інтелект.
Запланована реструктуризація відображає
GateNews1год тому
Уряд Трампа оприлюднив план боротьби з AI-переробкою, звинувачуючи китайські компанії в систематичному викраденні можливостей моделей
Офіційний помічник президента з питань технологічної політики Білого дому (OSTP) Майкл Дж. Кратсіос (Michael J. Kratsios) 23 квітня зробив офіційну заяву, у якій зазначив, що адміністрація Трампа має інформацію, яка свідчить: іноземні суб’єкти (переважно з Китаю) навмисно націлені на великі американські компанії в галузі штучного інтелекту, системно вилучаючи можливості американських AI-моделей через «десятки тисяч» проксі-акаунтів та системи, що використовують технології джейлбрейку, і паралельно оприлюднюють чотири заходи реагування.
MarketWhisper1год тому
DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4
DeepSeek 24 квітня офіційно випустив серію прев’ю-версій V4, відкривши її як open source за ліцензією MIT; ваги моделей уже синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (найпотужніший режим інференсу) на бенчмарку Codeforces набрав 3206 балів, перевершивши GPT-5.4.
MarketWhisper1год тому
Tencent випустила Hy3 у прев’ю-версії з відкритим кодом, тест продуктивності коду порівняно з попередньою версією покращено на 40%
Tencent 4 травня 23 числа офіційно відкрив вихідний код попередньої версії великої мовної моделі Hy3 на платформах GitHub, Hugging Face та ModelScope, а також паралельно надає платні API-послуги через Tencent Cloud. За повідомленням Decrypt від 24 квітня, попередня версія Hy3 розпочала навчання наприкінці січня, і на момент дати публікації минуло менше ніж три місяці.
MarketWhisper2год тому