Giám đốc điều hành Google DeepMind: Mọi công ty sản phẩm AI đều nên xây dựng các bộ chuẩn tùy chỉnh

Tin tức Gate ngày 27 tháng 4 — Logan Kilpatrick, quản lý sản phẩm cấp cao tại Google DeepMind và là người phụ trách sản phẩm của Google AI Studio, cho biết trên X rằng mọi công ty đang xây dựng các sản phẩm dựa trên AI đều nên thiết lập các bộ chuẩn tùy chỉnh của riêng mình để đo hiệu suất của mô hình AI. Ông mô tả đây là một cách để làm cho các cải tiến mô hình “mang lại lợi ích một cách không tương xứng cho công ty của bạn” và kêu gọi những người sáng lập cùng lãnh đạo doanh nghiệp hãy “bắt đầu từ ngày mai.”

Hầu hết các công ty hiện nay dựa vào các bảng xếp hạng công khai để lựa chọn mô hình AI, nhưng những bảng này đo các năng lực chung thường không khớp với các kịch bản kinh doanh cụ thể. Kilpatrick nêu ví dụ về một công ty rà soát hợp đồng vốn đặc biệt quan tâm đến độ chính xác trích xuất điều khoản — một năng lực không có trong các bộ chuẩn công khai, khiến việc đánh giá hiệu suất mô hình trên nhiệm vụ đó là không thể. Các bộ chuẩn tùy chỉnh mang lại hai lợi thế chính: thứ nhất, chúng cho phép các công ty đánh giá từng lần cập nhật mô hình dựa trên các nhiệm vụ kinh doanh của chính họ và chọn mô hình hoạt động tốt nhất trong tình huống sử dụng thực tế của mình thay vì mô hình được xếp hạng cao nhất nói chung; thứ hai, chúng cho phép các công ty chia sẻ các bộ kiểm thử này với các nhà cung cấp mô hình, thúc đẩy tối ưu hóa liên tục trong những lĩnh vực quan trọng đối với doanh nghiệp của họ.

Kilpatrick cho biết các công ty như Zapier và Sierra đã đang triển khai cách tiếp cận này, khẳng định rằng “có rất nhiều alpha có thể được tạo ra ở đây.”

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

郭明錤: OpenAI muốn làm AI Agent trên điện thoại, MediaTek, Qualcomm, Luxshare Precision trở thành chuỗi cung ứng then chốt

郭明錤 tuyên bố OpenAI đang hợp tác với MediaTek, Qualcomm và Luxshare Precision để phát triển điện thoại di động AI Agent, dự kiến sản xuất hàng loạt vào năm 2028. Điện thoại mới sẽ lấy việc hoàn thành tác vụ làm trung tâm; AI agent sẽ hiểu và thực thi các yêu cầu, kết hợp tính toán trên đám mây và tại thiết bị, trọng điểm là cảm biến và hiểu biết ngữ cảnh. Danh sách thông số kỹ thuật và chuỗi cung ứng dự kiến sẽ được chốt vào giai đoạn 2026–2027; nếu thành hình, hoặc sẽ mang lại một chu kỳ nâng cấp điện thoại mới cho phân khúc cao cấp, thì Luxshare có khả năng trở thành bên được hưởng lợi chính.

ChainNewsAbmedia1phút trước

IEA: Chi tiêu cơ sở hạ tầng AI đã vượt đầu tư sản xuất dầu khí, dự kiến sẽ tăng thêm 75% vào năm 2026

Theo phân tích và dữ liệu thị trường do Cơ quan Năng lượng Quốc tế (IEA) công bố vào ngày 26 tháng 4, tổng chi tiêu vốn của năm công ty công nghệ hàng đầu trong năm 2025 vượt 400 tỷ USD, chủ yếu được đầu tư cho việc xây dựng hạ tầng AI, với quy mô đã vượt qua mức đầu tư hàng năm của sản xuất dầu và khí đốt toàn cầu. IEA ước tính rằng, chi tiêu vốn liên quan vào năm 2026 có thể tiếp tục tăng thêm 75%.

MarketWhisper33phút trước

Thượng nghị sĩ Bernie Sanders đưa ra cảnh báo về mối đe dọa sinh tồn từ AI

Sanders nhấn mạnh rằng ngay cả khi hầu hết các nhà khoa học AI đều thừa nhận khả năng AI thoát khỏi sự kiểm soát và trở thành mối nguy đối với sự tồn tại của chúng ta, vẫn chưa có biện pháp lớn nào được thực hiện để ngăn chặn điều đó. “Chúng ta phải đảm bảo rằng AI mang lại lợi ích cho nhân loại, chứ không gây hại cho chúng ta,” ông nói. Các ý chính rút ra: Bernie Sanders

Coinpedia43phút trước

Trưởng bộ phận mô hình AI của Xiaomi: Cuộc cạnh tranh AI đang chuyển sang thời đại Agent; tự tiến hóa là sự kiện then chốt dẫn tới AGI

Người phụ trách đội ngũ mô hình lớn của Xiaomi, La Fuli, đã có một cuộc phỏng vấn chuyên sâu trên nền tảng Bilibili vào ngày 24 tháng 4 (mã video: BV1iVoVBgERD). Thời lượng cuộc phỏng vấn là 3,5 giờ, và đây là lần đầu tiên cô công khai trình bày một cách có hệ thống các quan điểm kỹ thuật của mình với tư cách là người phụ trách kỹ thuật. La Fuli cho biết, cuộc đua cạnh tranh của các mô hình lớn đã chuyển từ thời đại Chat sang thời đại Agent, đồng thời chỉ ra rằng “tự tiến hoá” sẽ là sự kiện then chốt của AGI trong năm tới.

MarketWhisper43phút trước

xAI Grok Voice tiếp quản đường dây nóng chăm sóc khách hàng của Starlink, 70% cuộc gọi được tự động kết án

Theo thông báo chính thức của xAI được phát hành vào ngày 23 tháng 4, xAI đã giới thiệu tác nhân AI giọng nói Grok Voice Think Fast 1.0 và đã được triển khai trên đường dây nóng dịch vụ khách hàng Starlink +1 (888) GO STARLINK. Theo dữ liệu thử nghiệm được công bố trong thông báo, 70% các cuộc gọi được AI tự động xử lý chấm dứt, không cần sự can thiệp của con người.

MarketWhisper55phút trước

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.

GateNews59phút trước
Bình luận
0/400
Không có bình luận