Pesan Berita Gate, 24 April — DeepSeek merilis kartu model V4 hari ini, memvalidasi prediksi arsitektur sebelumnya yang dibuat melalui analisis pustaka kernel TileKernels yang dirilis kemarin (April 23). Menurut pemantauan oleh Beating, tiga komponen inti telah dikonfirmasi: mHC (Manifold-Constrained Hyper-Connections) menggantikan HyperConnection asli ByteDance, arsitektur MoE dengan routing pakar Top-k, dan penyimpanan bobot mixed-precision FP4+FP8. Modul memori kondisional Engram yang diprediksi tidak muncul di kartu model.

Kartu model mengungkapkan komponen baru yang tidak tercakup dalam TileKernels: mekanisme perhatian hibrida (CSA + HCA) mendorong peningkatan efisiensi konteks panjang V4, mengurangi FLOPs inferensi menjadi hanya 27% dari level V3.2 pada jendela konteks 1M, dan KV cache menjadi 10%. Pelatihan kini menggunakan pengoptimal Muon.

Verifikasi ini menunjukkan bagaimana implementasi kernel tingkat produksi dapat mengungkap arsitektur model yang mendasari sebelum spesifikasi resmi diterbitkan.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Tencent merilis Hy3 versi pratinjau sumber terbuka, tolok ukur pengujian kode meningkat 40% dibanding pendahulunya

Berita Industri AI

Tencent pada 23 April secara resmi membuka sumber model bahasa besar Hy3 versi pratinjau di platform GitHub, Hugging Face, dan ModelScope, serta turut menyediakan layanan API berbayar melalui Tencent Cloud. Menurut laporan Decrypt pada 24 April, Hy3 versi pratinjau memulai pelatihan pada akhir Januari, dan hingga tanggal rilis kurang dari tiga bulan.

MarketWhisper6menit yang lalu

Investasi Portofolio FTX Senilai 158 Triliun Won Jika Tidak Bangkrut

Saham Berita Industri AI

FTX, bursa perdagangan mata uang kripto terpusat yang mengajukan perlindungan kebangkrutan Chapter 11 pada November 2022 karena kekurangan likuiditas dan penarikan modal, akan memiliki investasi senilai sekitar 158,796 triliun won jika tidak runtuh, menurut analisis yang dikutip oleh Park

CryptoFrontier9menit yang lalu

Xiaomi Mengungkap Detail Pelatihan MiMo-V2-Pro: Parameter Model 1T, Ribuan GPU Diterjunkan

Berita Industri AI

Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.

GateNews23menit yang lalu

DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal

Berita Industri AI

Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama. Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada

GateNews31menit yang lalu

AI apa yang paling menonjol untuk menunjukkan status dan kedudukan? Riset mengungkap pendapatan pengguna Claude jauh lebih tinggi daripada pesaing, Meta AI ada di posisi terbawah

Berita Industri AI

Survei oleh Epoch AI menunjukkan bahwa pengguna Claude sebagian besar berasal dari kelompok berpendapatan tinggi, dengan 80% berpenghasilan tahunan di atas 100.000 dolar AS; distribusi pendapatan Meta AI paling luas, dengan 36,5% di atas 100.000, sementara proporsi berpendapatan rendah adalah yang tertinggi; harga Claude naik dan menerapkan penagihan bertingkat, sehingga biaya mungkin meningkat, sedangkan Meta lebih mudah untuk masuk. AI mana yang mungkin menjadi label identitas terselubung di masa depan.

ChainNewsAbmedia36menit yang lalu

V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Berita Industri AI

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk

GateNews50menit yang lalu

Komentar

0/400

Tidak ada komentar