Pesan Berita Gate, 24 April — DeepSeek merilis kartu model V4 hari ini, memvalidasi prediksi arsitektur sebelumnya yang dibuat melalui analisis pustaka kernel TileKernels yang dirilis kemarin (April 23). Menurut pemantauan oleh Beating, tiga komponen inti telah dikonfirmasi: mHC (Manifold-Constrained Hyper-Connections) menggantikan HyperConnection asli ByteDance, arsitektur MoE dengan routing pakar Top-k, dan penyimpanan bobot mixed-precision FP4+FP8. Modul memori kondisional Engram yang diprediksi tidak muncul di kartu model.
Kartu model mengungkapkan komponen baru yang tidak tercakup dalam TileKernels: mekanisme perhatian hibrida (CSA + HCA) mendorong peningkatan efisiensi konteks panjang V4, mengurangi FLOPs inferensi menjadi hanya 27% dari level V3.2 pada jendela konteks 1M, dan KV cache menjadi 10%. Pelatihan kini menggunakan pengoptimal Muon.
Verifikasi ini menunjukkan bagaimana implementasi kernel tingkat produksi dapat mengungkap arsitektur model yang mendasari sebelum spesifikasi resmi diterbitkan.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Tencent merilis Hy3 versi pratinjau sumber terbuka, tolok ukur pengujian kode meningkat 40% dibanding pendahulunya
Tencent pada 23 April secara resmi membuka sumber model bahasa besar Hy3 versi pratinjau di platform GitHub, Hugging Face, dan ModelScope, serta turut menyediakan layanan API berbayar melalui Tencent Cloud. Menurut laporan Decrypt pada 24 April, Hy3 versi pratinjau memulai pelatihan pada akhir Januari, dan hingga tanggal rilis kurang dari tiga bulan.
MarketWhisper6menit yang lalu
Investasi Portofolio FTX Senilai 158 Triliun Won Jika Tidak Bangkrut
FTX, bursa perdagangan mata uang kripto terpusat yang mengajukan perlindungan kebangkrutan Chapter 11 pada November 2022 karena kekurangan likuiditas dan penarikan modal, akan memiliki investasi senilai sekitar 158,796 triliun won jika tidak runtuh, menurut analisis yang dikutip oleh Park
CryptoFrontier9menit yang lalu
Xiaomi Mengungkap Detail Pelatihan MiMo-V2-Pro: Parameter Model 1T, Ribuan GPU Diterjunkan
Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.
GateNews23menit yang lalu
DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal
Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama.
Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada
GateNews31menit yang lalu
AI apa yang paling menonjol untuk menunjukkan status dan kedudukan? Riset mengungkap pendapatan pengguna Claude jauh lebih tinggi daripada pesaing, Meta AI ada di posisi terbawah
Survei oleh Epoch AI menunjukkan bahwa pengguna Claude sebagian besar berasal dari kelompok berpendapatan tinggi, dengan 80% berpenghasilan tahunan di atas 100.000 dolar AS; distribusi pendapatan Meta AI paling luas, dengan 36,5% di atas 100.000, sementara proporsi berpendapatan rendah adalah yang tertinggi; harga Claude naik dan menerapkan penagihan bertingkat, sehingga biaya mungkin meningkat, sedangkan Meta lebih mudah untuk masuk. AI mana yang mungkin menjadi label identitas terselubung di masa depan.
ChainNewsAbmedia36menit yang lalu
V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5
Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk
GateNews50menit yang lalu