Berita Gate, 22 April — Mahasiswa PhD Princeton, Yifan Zhang, mengungkapkan spesifikasi teknis lengkap untuk DeepSeek V4 di X, setelah pratinjau pada 19 April. V4 memiliki 1,6 triliun parameter total dan varian ringan, V4-Lite, dengan 285 miliar parameter.
Model menggunakan mekanisme perhatian DSA2, yang menggabungkan DSA (DeepSeek Sparse Attention) sebelumnya dari DeepSeek pada V3.2 dan NSA (Native Sparse Attention) dengan embedding kepala berdimensi 512, dipasangkan dengan Sparse Multi-Query Attention (MQA) dan Sliding Window Attention (SWA). Lapisan MoE (Mixture of Experts) berisi 384 pakar dengan 6 yang diaktifkan per sekali forward pass, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan arsitektur Hyper-Connections.
Detail pelatihan yang diungkap untuk pertama kalinya mencakup penggunaan optimizer Muon (applying Newton-Schulz orthogonalization to momentum updates), jendela konteks pra-pelatihan 32K token, serta GRPO (Group Relative Policy Optimization) dengan koreksi divergensi KL selama reinforcement learning. Jendela konteks akhir diperluas hingga 1 juta token. Model hanya teks.
Zhang tidak bekerja untuk DeepSeek, dan perusahaan belum secara resmi memberikan komentar atas informasi yang diungkapkan.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
OpenAI Merilis Model Filter Privasi Open-Source untuk Deteksi dan Penyensoran PII
Abstrak: Filter Privasi OpenAI adalah model open-source yang dapat dijalankan secara lokal untuk mendeteksi dan menyensor PII dalam teks. Model ini mendukung konteks yang besar, mengidentifikasi banyak kategori PII, dan dimaksudkan untuk alur kerja yang menjaga privasi seperti persiapan data, pengindeksan, pencatatan, dan moderasi.
Filter Privasi OpenAI adalah model open-source yang dijalankan secara lokal (konteks 128k-token) yang mendeteksi dan menyensor PII dalam teks, mencakup data kontak, data finansial, dan data kredensial untuk alur kerja privasi.
GateNews28menit yang lalu
OpenAI Berencana Menerapkan 30GW Kekuatan Komputasi pada 2030
OpenAI menargetkan 30GW komputasi pada tahun 2030 untuk memenuhi kebutuhan AI yang terus meningkat, dengan 8GW telah diselesaikan dari target 10GW pada tahun 2025. Ekspansi ini menandakan strategi untuk memperbesar infrastruktur bagi pengembangan dan penerapan AI generasi berikutnya.
OpenAI berencana mencapai 30GW kekuatan komputasi pada tahun 2030 untuk mengakomodasi meningkatnya kebutuhan AI, dengan sudah menyelesaikan 8GW dari target 10GW untuk tahun 2025. Langkah ini mencerminkan perluasan strategis infrastruktur untuk mendukung pengembangan dan penerapan AI generasi berikutnya.
GateNews28menit yang lalu
Agen Penemuan Kerentanan Berbasis AI 360 Menemukan Hampir 1.000 Eksploitasi Zero-Day, Bersaing dengan Mythos
Agen AI yang digerakkan oleh 360 Digital Security mengklaim telah menemukan sekitar 1.000 kerentanan baru, termasuk di Office dan OpenClaw; kini AI menjadi inti untuk penemuan dan persiapan rantai eksploit, menyaingi Mythos.
Abstrak: Sebuah laporan yang dikutip Bloomberg mencatat bahwa 360 Digital Security Group’s AI-driven Vulnerability Discovery Agent telah mengidentifikasi hampir 1.000 kerentanan yang sebelumnya tidak dikenal dalam beberapa bulan terakhir, termasuk pada Microsoft Office dan framework OpenClaw. Perusahaan tersebut mengatakan bahwa AI telah menjadi mesin utama untuk penemuan kerentanan dan telah mengumumkan sebuah alat AI untuk mempercepat konstruksi rantai eksploit. Benincasa menggambarkan 360 sebagai pesaing Mythos milik Anthropic, berdasarkan tinjauan Natto Thoughts atas pengumuman berbahasa Mandarin perusahaan tersebut.
GateNews33menit yang lalu
CEO Anthropic melakukan kunjungan ke Gedung Putih untuk menjalin kerja sama awal: bertemu dengan Kepala Staf dan Bessent untuk membahas Mythos
The Wall Street Journal melaporkan bahwa CEO Anthropic Amodei melakukan pertemuan tertutup dengan Gedung Putih pada 17/4, dengan fokus pada batas keamanan Mythos dan penerapan yang bertanggung jawab; Gedung Putih mengatakan pertemuan itu konstruktif, sementara pasar memandangnya sebagai tanda hubungan yang mulai mencair. Perbedaan inti adalah bahwa pihak militer menginginkan agar Claude digunakan untuk semua tujuan yang legal, sementara Anthropic berpendapat bahwa penetapan kebijakan penggunaan yang dapat diterima tetap menjadi diskresi kebijakan mereka sendiri. Kedua belah pihak sama-sama menyatakan akan terus berdialog, dan akan membahasnya lagi sebelum Mythos diluncurkan pada bulan Mei.
ChainNewsAbmedia2jam yang lalu
Google Ironwood TPU:Performa 10x + Empat mitra untuk menantang Nvidia
Berdasarkan laporan mendalam Bloomberg dan pengumuman resmi Google, Google pada 22 April secara resmi memperluas jajaran chip AI buatan sendiri: Ironwood khusus untuk inferensi (TPU generasi ketujuh) kini tersedia secara penuh di Google Cloud, serta secara bersamaan memulai kerja sama desain generasi berikutnya dengan empat mitra, Broadcom, MediaTek, Marvell, dan Intel. Tujuannya adalah menantang posisi dominan Nvidia di pasar komputasi AI melalui rantai pasokan chip yang disesuaikan.
Ironwood: TPU generasi ketujuh, pertama kali dirancang khusus untuk inferensi
Ironwood adalah produk generasi ketujuh dari rangkaian TPU Google, sekaligus chip khusus inferensi pertama di bawah strategi “pemisahan pelatihan dan inferensi”. Spesifikasi yang diungkapkan Google: performa puncak per chip adalah T
ChainNewsAbmedia2jam yang lalu
DeepSeek membahas putaran pendanaan eksternal pertama, valuasi 20 miliar dolar: rekor valuasi baru untuk AI di Tiongkok
Menurut laporan Bloomberg pada 22 April (berdasarkan informasi dari The Information secara eksklusif), startup AI Tiongkok DeepSeek sedang dalam pembicaraan untuk putaran pendanaan eksternal pertamanya, dengan valuasi mencapai 20 miliar dolar AS. Ini adalah pendanaan eksternal pertama DeepSeek sejak didirikan pada 2023, yang sebelumnya sepenuhnya dibiayai dari dalam oleh manajer dana lindung nilai berbasis kuantitatif High-Flyer Capital Management. Valuasi 20 miliar dolar AS juga merupakan tonggak pertama bagi startup AI Tiongkok yang untuk pertama kalinya masuk ke paruh bawah kategori “valuasi bernilai ratusan miliar dolar AS”.
Skala pendanaan dan penggunaan dana
DeepSeek mencari setidaknya 300 juta dolar AS untuk putaran pendanaan pertama, dan valuasi 20 miliar dolar AS tersebut kembali berlipat dua dibanding valuasi “lebih dari 10 miliar dolar AS” yang pertama kali diungkapkan oleh The Information pada 17 April.
ChainNewsAbmedia2jam yang lalu