Pesan Gate News, 24 April — DeepSeek telah merilis seri model open-source V4 di bawah Lisensi MIT, dengan bobot kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model (MoE) mixture-of-experts: V4-Pro dengan total parameter 1,6 triliun dan 49 miliar yang diaktifkan per token, serta V4-Flash dengan total parameter 284 miliar dan 13 miliar yang diaktifkan per token. Keduanya mendukung jendela konteks 1 juta token.

Arsitekturnya menampilkan tiga peningkatan kunci: mekanisme attention hibrida yang menggabungkan compressed sparse attention (CSA) dan heavily compressed attention (HCA) yang secara signifikan mengurangi overhead untuk konteks panjang—FLOPs inferensi V4-Pro untuk konteks 1M hanya 27% dari V3.2, dan KV cache (VRAM untuk menyimpan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnections (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas-lapis; dan optimizer Muon untuk konvergensi pelatihan yang lebih cepat. Pra-pelatihan menggunakan lebih dari 32 triliun token data.

Pascapelatihan menggunakan pendekatan dua tahap: pertama melatih expert khusus domain melalui supervised fine-tuning (SFT) dan reinforcement learning GRPO, lalu menggabungkannya menjadi satu model melalui distilasi online. V4-Pro-Max (highest inference mode) mengklaim sebagai model open-source terkuat dengan benchmark coding kelas atas dan kesenjangan yang secara signifikan dipersempit dibandingkan model frontier closed-source dalam tugas penalaran dan agen. V4-Flash-Max mencapai performa penalaran level Pro dengan anggaran komputasi yang cukup, tetapi dibatasi oleh skala parameter pada pengetahuan murni dan tugas agen yang kompleks. Bobot disimpan dalam presisi campuran FP4+FP8.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal

Berita Industri AI

Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama. Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada

GateNews8menit yang lalu

AI apa yang paling menonjol untuk menunjukkan status dan kedudukan? Riset mengungkap pendapatan pengguna Claude jauh lebih tinggi daripada pesaing, Meta AI ada di posisi terbawah

Berita Industri AI

Survei oleh Epoch AI menunjukkan bahwa pengguna Claude sebagian besar berasal dari kelompok berpendapatan tinggi, dengan 80% berpenghasilan tahunan di atas 100.000 dolar AS; distribusi pendapatan Meta AI paling luas, dengan 36,5% di atas 100.000, sementara proporsi berpendapatan rendah adalah yang tertinggi; harga Claude naik dan menerapkan penagihan bertingkat, sehingga biaya mungkin meningkat, sedangkan Meta lebih mudah untuk masuk. AI mana yang mungkin menjadi label identitas terselubung di masa depan.

ChainNewsAbmedia13menit yang lalu

V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Berita Industri AI

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk

GateNews28menit yang lalu

UK Menyoroti AI Anthropic untuk Memperkuat Keamanan Siber Perbankan

Berita Industri AI

Inggris Raya sedang menjajaki langkah besar dalam keamanan siber keuangan dengan bekerja sama dengan perusahaan AI Anthropic. Pembahasan awal menunjukkan bahwa pemerintah mungkin akan menerapkan model Claude Mythos canggih dari Anthropic di seluruh bank dan institusi keuangan. Langkah ini bertujuan untuk meningkatkan pertahanan karena ancaman siber

CryptometerIo32menit yang lalu

Kantor Kekayaan Intelektual Tiongkok Menambahkan AI, Semikonduktor, dan Antarmuka Otak-Komputer ke Program Perlindungan Jalur Cepat

Berita Industri AI

Pesan Berita Gate, 24 April — Administrasi Kekayaan Intelektual Nasional Tiongkok mengumumkan pada 24 April bahwa pihaknya akan membangun perlindungan kekayaan intelektual yang komprehensif untuk teknologi yang berkembang melalui reformasi institusional, layanan yang ditingkatkan, dan perluasan penerapan. Administrasi tersebut wi

GateNews39menit yang lalu

Komentar

0/400

Tidak ada komentar