MITライセンスと1.6Tパラメータを備えたDeepSeekのV4オープンソースモデルシリーズをリリース

ゲートニュース速報、4月24日—DeepSeekは、MITライセンスのもとでオープンソースのV4シリーズモデルをリリースしました。重みは現在Hugging FaceおよびModelScopeで利用可能です。このシリーズには2つのモーダル・エキスパート (MoE)モデルが含まれています。V4-Proは総パラメータ1.6兆で、1トークンあたり490億が有効化され、V4-Flashは総パラメータ2840億で、1トークンあたり130億が有効化されます。両方とも1,000,000トークンのコンテキストウィンドウをサポートします。

アーキテクチャには3つの重要なアップグレードがあります。圧縮されたスパース注意 (CSA) と大幅に圧縮された注意 (HCA) を組み合わせたハイブリッド注意メカニズムにより、ロングコンテキストのオーバーヘッドを大幅に削減—V4-Proの1Mコンテキストにおける推論FLOPsはV3.2のわずか27%であり、推論中に歴史情報を格納するためのKVキャッシュ (VRAM) はV3.2の10%にとどまります。従来の残差接続に代わり、層間の信号伝播の安定性を高めるマニフォールド制約付きハイパーコネクション (mHC)。そして、より速い学習収束のためのMuonオプティマイザです。事前学習では32兆トークン以上のデータを使用しました。

事後学習は2段階のアプローチを採用します。まず、教師あり微調整 (SFT) とGRPO強化学習によりドメイン固有のエキスパートを訓練し、その後オンライン蒸留によってそれらを単一モデルに統合します。V4-Pro-Max (最高推論モード)は、トップクラスのコーディングベンチマークを備え、推論およびエージェントタスクにおけるクローズドソースのフロンティアモデルとのギャップを大幅に縮めた、最強のオープンソースモデルであると主張しています。V4-Flash-Maxは、十分な計算予算がある場合にProレベルの推論性能を実現しますが、純粋な知識および複雑なエージェントタスクにおいてはパラメータ規模によって制約を受けます。重みは混合精度のFP4+FP8で保存されます。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

DeepSeek V4がPutnam-2025で満点を達成、形式的な数学推論でAxiomと首位

Gate Newsメッセージ、4月24日 — DeepSeek V4は、形式的な数学的推論の評価結果を公開し、Putnam-2025で満点の120/120を達成し、首位でAxiomと並びました。 LeanExploreと制約付きサンプリングを用いた実用レジームでは、V4-Flash-Maxは「に」に81.00を獲得しました。

GateNews8分前

どのようなAIが最も身分や地位を際立たせますか?調査で、Claudeユーザーの収入が同業を大きく上回り、Meta AIが底辺に位置することが判明

Epoch AI の調査によると、Claude ユーザーは主に高所得層で、80%が年収 10 万ドル超です。Meta AI の収入分布は最も幅広く、10 万ドル以上が 36.5%で、低所得層の割合が最も高いです。Claude は価格が上昇し、階層別の課金になっているため、コストが増える可能性があります。Meta は導入がより容易です。将来、どの AI が暗黙のアイデンティティ指標になり得るのでしょうか。

ChainNewsAbmedia13分前

V4-Pro、内部ドッグフーディングテストで67%のコーディング合格率を達成。Opus 4.5の性能に接近

ゲートニュース、4月24日 — V4はV4-Proモデルについて、内部ドッグフーディングのデータを公表しました。同社は、50人超のエンジニアから約200件の実世界のエンジニアリング課題を収集し、PyTorch、CUDA、Rust、C++を含む技術スタック全体にわたる機能開発、バグ修正、リファクタリング、診断をカバーしています。

GateNews28分前

英国、銀行のサイバーセキュリティ強化のためにAnthropicのAIに注目

英国は、AI企業Anthropicと連携することで、金融サイバーセキュリティにおける大きな一歩を検討している。初期の協議では、政府がAnthropicの高度なClaude Mythosモデルを銀行や金融機関全体に展開する可能性があることが示唆されている。この動きは、サイバー脅威への防御を改善することを目的としているが

CryptometerIo32分前

中国の知財当局、AI、半導体、ブレイン・コンピューター・インターフェースを保護の迅速化プログラムに追加

Gate Newsメッセージ、4月24日 — 中国の国家知的財産権局(CNIPA)は4月24日、制度改革、強化されたサービス、応用の拡大を通じて、新興技術に対する包括的な知的財産保護を確立すると発表した。管理当局は

GateNews39分前
コメント
0/400
コメントなし