Tin cổng thông tin, ngày 24 tháng 4 — DeepSeek đã phát hành hôm nay thẻ mô hình V4, xác nhận các dự đoán kiến trúc trước đó được đưa ra thông qua phân tích thư viện kernel TileKernels được phát hành ngày hôm qua (April 23). Theo giám sát của Beating, ba thành phần cốt lõi đã được xác nhận: mHC (Manifold-Constrained Hyper-Connections) thay thế HyperConnection nguyên bản của ByteDance, kiến trúc MoE với định tuyến chuyên gia Top-k, và lưu trữ trọng số trộn độ chính xác FP4+FP8. Mô-đun bộ nhớ có điều kiện Engram dự đoán đã không xuất hiện trong thẻ mô hình.

Thẻ mô hình tiết lộ các thành phần mới không được đề cập trong TileKernels: cơ chế chú ý lai (CSA + HCA) thúc đẩy các cải tiến hiệu quả ngữ cảnh dài của V4, giảm FLOPs suy luận chỉ còn 27% so với mức của V3.2 ở cửa sổ ngữ cảnh 1M và bộ nhớ đệm KV xuống 10%. Việc huấn luyện hiện sử dụng bộ tối ưu hóa Muon.

Việc xác minh cho thấy các triển khai kernel cấp sản xuất có thể tiết lộ kiến trúc mô hình bên trong trước khi các thông số kỹ thuật chính thức được công bố.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Tencent phát hành mã nguồn mở Hy3 phiên bản xem trước, bộ chuẩn kiểm thử hiệu năng mã nguồn tăng 40% so với phiên bản trước

Tin tức ngành AI

Tencent vào ngày 23 tháng 4 đã chính thức mã nguồn mở mô hình ngôn ngữ lớn Hy3 phiên bản xem trước trên các nền tảng GitHub, Hugging Face và ModelScope, đồng thời cũng cung cấp dịch vụ API trả phí trên đám mây Tencent (Tencent Cloud). Theo Decrypt đưa tin vào ngày 24 tháng 4, Hy3 phiên bản xem trước đã bắt đầu huấn luyện từ cuối tháng 1 và, tính đến thời điểm phát hành, thời gian chưa đầy ba tháng.

MarketWhisper6phút trước

Đầu tư danh mục FTX trị giá 158 nghìn tỷ Won nếu không phá sản

Cổ phiếu Tin tức ngành AI

FTX, sàn giao dịch tiền mã hóa tập trung đã nộp đơn xin bảo hộ phá sản theo Chương 11 vào tháng 11 năm 2022 do thiếu thanh khoản và dòng vốn rút ra, nếu không sụp đổ thì đã nắm giữ các khoản đầu tư trị giá khoảng 158,796 nghìn tỷ won, theo phân tích được trích dẫn bởi Park

CryptoFrontier9phút trước

Xiaomi Tiết Lộ Chi Tiết Huấn Luyện MiMo-V2-Pro: Tham Số Mô Hình 1T, Triển Khai Hàng Nghìn GPU

Tin tức ngành AI

Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI

GateNews23phút trước

DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức

Tin tức ngành AI

Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1. Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên

GateNews31phút trước

Dùng AI nào khiến thể hiện thân phận và địa vị đáng ngưỡng mộ nhất? Nghiên cứu tiết lộ thu nhập người dùng của Claude cao hơn hẳn so với các đối thủ, Meta AI xếp cuối

Tin tức ngành AI

Cuộc khảo sát của Epoch AI cho thấy người dùng Claude chủ yếu thuộc nhóm có thu nhập cao, 80% có thu nhập hằng năm trên 100.000 USD; Meta AI có phân phối thu nhập rộng nhất, 36,5% ở mức trên 100.000, tỷ lệ người thu nhập thấp chiếm cao nhất; giá của Claude tăng và áp dụng tính phí theo từng gói, chi phí có thể tăng lên, trong khi Meta có mức vào dễ hơn. Trong tương lai, dùng AI nào có thể trở thành nhãn nhận diện danh tính ngầm.

ChainNewsAbmedia36phút trước

V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức ngành AI

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm

GateNews50phút trước

Bình luận

0/400

Không có bình luận