Tin cổng thông tin, ngày 24 tháng 4 — DeepSeek đã phát hành hôm nay thẻ mô hình V4, xác nhận các dự đoán kiến trúc trước đó được đưa ra thông qua phân tích thư viện kernel TileKernels được phát hành ngày hôm qua (April 23). Theo giám sát của Beating, ba thành phần cốt lõi đã được xác nhận: mHC (Manifold-Constrained Hyper-Connections) thay thế HyperConnection nguyên bản của ByteDance, kiến trúc MoE với định tuyến chuyên gia Top-k, và lưu trữ trọng số trộn độ chính xác FP4+FP8. Mô-đun bộ nhớ có điều kiện Engram dự đoán đã không xuất hiện trong thẻ mô hình.
Thẻ mô hình tiết lộ các thành phần mới không được đề cập trong TileKernels: cơ chế chú ý lai (CSA + HCA) thúc đẩy các cải tiến hiệu quả ngữ cảnh dài của V4, giảm FLOPs suy luận chỉ còn 27% so với mức của V3.2 ở cửa sổ ngữ cảnh 1M và bộ nhớ đệm KV xuống 10%. Việc huấn luyện hiện sử dụng bộ tối ưu hóa Muon.
Việc xác minh cho thấy các triển khai kernel cấp sản xuất có thể tiết lộ kiến trúc mô hình bên trong trước khi các thông số kỹ thuật chính thức được công bố.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Tencent phát hành mã nguồn mở Hy3 phiên bản xem trước, bộ chuẩn kiểm thử hiệu năng mã nguồn tăng 40% so với phiên bản trước
Tencent vào ngày 23 tháng 4 đã chính thức mã nguồn mở mô hình ngôn ngữ lớn Hy3 phiên bản xem trước trên các nền tảng GitHub, Hugging Face và ModelScope, đồng thời cũng cung cấp dịch vụ API trả phí trên đám mây Tencent (Tencent Cloud). Theo Decrypt đưa tin vào ngày 24 tháng 4, Hy3 phiên bản xem trước đã bắt đầu huấn luyện từ cuối tháng 1 và, tính đến thời điểm phát hành, thời gian chưa đầy ba tháng.
MarketWhisper6phút trước
Đầu tư danh mục FTX trị giá 158 nghìn tỷ Won nếu không phá sản
FTX, sàn giao dịch tiền mã hóa tập trung đã nộp đơn xin bảo hộ phá sản theo Chương 11 vào tháng 11 năm 2022 do thiếu thanh khoản và dòng vốn rút ra, nếu không sụp đổ thì đã nắm giữ các khoản đầu tư trị giá khoảng 158,796 nghìn tỷ won, theo phân tích được trích dẫn bởi Park
CryptoFrontier9phút trước
Xiaomi Tiết Lộ Chi Tiết Huấn Luyện MiMo-V2-Pro: Tham Số Mô Hình 1T, Triển Khai Hàng Nghìn GPU
Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI
GateNews23phút trước
DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức
Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1.
Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên
GateNews31phút trước
Dùng AI nào khiến thể hiện thân phận và địa vị đáng ngưỡng mộ nhất? Nghiên cứu tiết lộ thu nhập người dùng của Claude cao hơn hẳn so với các đối thủ, Meta AI xếp cuối
Cuộc khảo sát của Epoch AI cho thấy người dùng Claude chủ yếu thuộc nhóm có thu nhập cao, 80% có thu nhập hằng năm trên 100.000 USD; Meta AI có phân phối thu nhập rộng nhất, 36,5% ở mức trên 100.000, tỷ lệ người thu nhập thấp chiếm cao nhất; giá của Claude tăng và áp dụng tính phí theo từng gói, chi phí có thể tăng lên, trong khi Meta có mức vào dễ hơn. Trong tương lai, dùng AI nào có thể trở thành nhãn nhận diện danh tính ngầm.
ChainNewsAbmedia36phút trước
V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5
Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm
GateNews50phút trước