Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số.

Mô hình sử dụng cơ chế chú ý DSA2, kết hợp (DeepSeek Sparse Attention) trước đó của DeepSeek từ V3.2 và (Native Sparse Attention) NSA với các phần nhúng đầu có chiều 512, đi kèm (Sparse Multi-Query Attention)MQA( và )Sliding Window Attention(SWA). Lớp MoE (Mixture of Experts) chứa 384 chuyên gia với 6 chuyên gia được kích hoạt cho mỗi lượt truyền xuôi, sử dụng Fused MoE Mega-Kernel. Các kết nối tắt (residual) dùng kiến trúc Hyper-Connections.

Các chi tiết huấn luyện được tiết lộ lần đầu bao gồm việc sử dụng bộ tối ưu Muon (applying Newton-Schulz orthogonalization to momentum updates), cửa sổ ngữ cảnh tiền huấn luyện 32K token và GRPO Group Relative Policy Optimization với hiệu chỉnh KL divergence trong quá trình học tăng cường. Cửa sổ ngữ cảnh cuối cùng mở rộng đến 1 triệu token. Mô hình chỉ xử lý văn bản.

Zhang không làm việc cho DeepSeek, và công ty cũng chưa bình luận chính thức về các thông tin được công bố.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenAI Phát Hành Mô Hình Bộ Lọc Quyền Riêng Tư Mã Nguồn Mở Để Phát Hiện và Che Giấu PII

Tóm tắt: Bộ lọc Quyền riêng tư của OpenAI là một mô hình mã nguồn mở, chạy cục bộ, có khả năng phát hiện và che giấu (redact) thông tin nhận dạng cá nhân (PII) trong văn bản. Mô hình hỗ trợ các ngữ cảnh lớn, xác định nhiều hạng mục PII và được thiết kế cho các quy trình bảo vệ quyền riêng tư như chuẩn bị dữ liệu, lập chỉ mục, ghi nhật ký và điều tiết (moderation). Bộ lọc Quyền riêng tư của OpenAI là một mô hình mã nguồn mở chạy cục bộ (128k-token context), có khả năng phát hiện và che giấu PII trong văn bản, bao quát dữ liệu liên hệ, tài chính và thông tin đăng nhập cho các quy trình bảo vệ quyền riêng tư.

GateNews28phút trước

OpenAI Lên Kế Hoạch Triển Khai 30GW Năng Lực Điện Toán Vào Năm 2030

OpenAI nhắm tới 30GW điện toán vào năm 2030 để đáp ứng nhu cầu AI ngày càng tăng, với 8GW đã hoàn thành trong mục tiêu 10GW năm 2025. Việc mở rộng này cho thấy chiến lược mở rộng hạ tầng để phát triển và triển khai AI thế hệ tiếp theo. OpenAI dự định đạt 30GW năng lực điện toán vào năm 2030 để đáp ứng nhu cầu AI ngày càng tăng, với việc đã hoàn thành 8GW trong mục tiêu 10GW cho năm 2025. Động thái này phản ánh việc mở rộng chiến lược hạ tầng nhằm hỗ trợ phát triển và triển khai AI thế hệ tiếp theo.

GateNews28phút trước

Tác nhân Khám phá Lỗ hổng AI của 360 Tìm thấy Gần 1.000 Khai thác Zero-Day, Cạnh tranh với Mythos

360 Digital Security 的 tác nhân AI được điều khiển bởi AI tuyên bố đã phát hiện khoảng 1.000 lỗ hổng mới, bao gồm trong Office và OpenClaw; AI giờ là cốt lõi của việc phát hiện và chuẩn bị chuỗi khai thác, sánh ngang Mythos. Tóm tắt: Một báo cáo được Bloomberg trích dẫn ghi nhận rằng 360 Digital Security Group’s AI-driven Vulnerability Discovery Agent đã xác định gần 1.000 lỗ hổng phần mềm trước đây chưa được biết đến trong những tháng gần đây, bao gồm trong Microsoft Office và framework OpenClaw. Công ty cho biết AI đã trở thành động cơ cốt lõi của việc phát hiện lỗ hổng và đã công bố một công cụ AI để tăng tốc việc xây dựng chuỗi khai thác. Benincasa mô tả 360 là đối thủ cạnh tranh của Mythos của Anthropic, dựa trên phần đánh giá của Natto Thoughts về các thông báo ngôn ngữ Trung Quốc của công ty.

GateNews33phút trước

Giám đốc điều hành của Anthropic đến Nhà Trắng để “phá băng”: thảo luận với Chánh văn phòng, Bessent về Mythos

Wall Street Journal cho biết, CEO của Anthropic Amodei đã có cuộc gặp riêng với Nhà Trắng vào ngày 17/4, tập trung vào ranh giới an ninh quốc gia của Mythos và việc triển khai có trách nhiệm; Nhà Trắng cho biết cuộc họp mang tính xây dựng, và thị trường coi đó là dấu hiệu quan hệ đang được hàn gắn. Bất đồng cốt lõi là phía quân đội muốn Claude được sử dụng cho mọi mục đích hợp pháp, trong khi Anthropic khẳng định sự cân nhắc theo chính sách sử dụng chấp nhận được của chính mình. Cả hai bên đều cho biết sẽ tiếp tục đối thoại, trước khi Mythos lên sàn vào tháng 5 sẽ còn trao đổi thêm.

ChainNewsAbmedia2giờ trước

Google Ironwood TPU: Hiệu năng gấp 10 lần + Bốn đối tác cùng đối đầu Nvidia

Theo báo cáo chuyên sâu của Bloomberg và thông báo chính thức từ Google, Google vào ngày 22 tháng 4 đã chính thức mở rộng danh mục chip AI do hãng tự phát triển: chip suy luận chuyên dụng Ironwood (TPU thế hệ thứ bảy) được cung cấp đầy đủ trên Google Cloud, đồng thời cũng khởi động đồng bộ các hoạt động hợp tác thiết kế thế hệ tiếp theo với bốn đối tác Broadcom, MediaTek, Marvell và Intel. Mục tiêu là dùng chuỗi cung ứng chip tùy chỉnh để đối đầu trực diện vị thế thống trị của Nvidia trong thị trường năng lực tính toán AI. Ironwood: TPU thế hệ thứ bảy, lần đầu tiên được thiết kế riêng cho suy luận Ironwood là sản phẩm thế hệ thứ bảy trong dòng TPU của Google, đồng thời là chip chuyên dụng cho suy luận đầu tiên dưới chiến lược “tách riêng huấn luyện và suy luận”. Thông số mà Google công bố: hiệu năng đỉnh trên một chip là T

ChainNewsAbmedia2giờ trước

DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, định giá 200 tỷ USD: mức định giá AI cao kỷ lục mới của Trung Quốc

Theo báo cáo của Bloomberg ngày 22 tháng 4 (dẫn The Information độc quyền), công ty khởi nghiệp AI của Trung Quốc DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, với định giá lên tới 20 tỷ USD. Đây là lần đầu tiên DeepSeek huy động vốn ra bên ngoài kể từ khi thành lập vào năm 2023; trước đó hoàn toàn được cấp vốn nội bộ bởi quỹ phòng hộ định lượng High-Flyer Capital Management. Định giá 20 tỷ USD cũng là một mốc đánh dấu việc công ty khởi nghiệp AI của Trung Quốc lần đầu tiên bước vào nửa sau của “mốc định giá 10 tỷ USD” lần đầu. Quy mô tài trợ và mục đích sử dụng vốn DeepSeek đang tìm kiếm ít nhất 300 triệu USD cho vòng tài trợ đầu tiên; định giá 20 tỷ USD so với mức định giá “trên 10 tỷ USD” được The Information lần đầu tiết lộ vào ngày 17 tháng 4 vừa qua đã tăng gấp đôi

ChainNewsAbmedia2giờ trước
Bình luận
0/400
Không có bình luận