Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。
强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。
评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
CEO Google: Đầu tư vốn năm 2026 đạt 1850 tỷ, tăng mạnh đầu tư cho thời đại tác nhân AI
Giám đốc điều hành Google Sundar Pichai đã công bố tại sự kiện Google Cloud Next ở Las Vegas vào ngày 22 tháng 4 rằng Google dự kiến đầu tư từ 175 đến 185 tỷ USD chi tiêu vốn vào năm 2026 để xây dựng cơ sở hạ tầng cần thiết cho các tác nhân AI (AI Agent) tự chủ, tăng so với 31 tỷ USD vào năm 2022.
MarketWhisper10phút trước
Google Jules công bố danh sách ứng viên phiên bản mở mới, định vị lại thành nền tảng phát triển sản phẩm đầu đến đầu
Theo thông báo chính thức của đội ngũ Google Jules vào ngày 23 tháng 4, định vị sản phẩm của Jules đã được nâng cấp từ agent mã hóa bất đồng bộ lên “nền tảng phát triển sản phẩm agentic đầu cuối”, phiên bản mới có thể đọc toàn bộ ngữ cảnh sản phẩm, tự đưa ra quyết định về hướng xây dựng tiếp theo và gửi PR. Phía chính thức cũng đồng thời công bố việc mở danh sách ứng viên cho phiên bản mới.
MarketWhisper16phút trước
Google Jules tái định vị thành Nền tảng phát triển sản phẩm theo định hướng tác nhân từ đầu đến cuối, mở danh sách chờ cho phiên bản mới
Tin tức Cổng, ngày 23 tháng 4 — Nhóm Jules của Google thông báo việc mở danh sách chờ cho một phiên bản mới của sản phẩm, định vị lại Jules từ một tác nhân lập trình bất đồng bộ thành một nền tảng phát triển sản phẩm theo định hướng tác nhân từ đầu đến cuối. Theo mô tả chính thức, nền tảng nâng cấp đọc bối cảnh toàn bộ sản phẩm,
GateNews1giờ trước
OpenAI Codex 团队修复 OpenClaw 身份验证漏洞,显著改善智能体行为
OpenClaw 从 Pi 切换到 Codex harness,以修复静默的身份验证回退;通过两项 PR 处理桥接与回退问题;修复后,智能体从浅层心跳轮询转为完整的工作循环,从而实现进展。
摘要:OpenClaw 的 Codex harness 优化解决了一个关键的身份验证缺陷:当使用 OpenAI 模型的 Codex 时,会导致静默回退到 Pi harness。两项拉取请求修复身份验证桥接,并防止静默回退,改变了运行时适配器。因此,智能体的行为从浅层心跳轮询演进为完整的工作循环:读取上下文、分析任务、编辑代码库并验证进展,从而提升跨心跳的连续性与可见性。
GateNews2giờ trước
Mở OpenAI ChatGPT Workspace Agents: Được điều khiển bởi Codex, chia sẻ trong nhóm, tích hợp Slack
OpenAI vào ngày 22 tháng 4 đã ra mắt Workspace Agents trên ChatGPT Business/Enterprise/Edu/Teachers, được cung cấp bởi Codex, chạy dài hạn trên đám mây, được dùng chung trong nhóm và có thể thực thi ngoại tuyến. Chúng có thể chủ động phản hồi và tạo hóa đơn trên Slack, thực hiện các quy trình làm việc đa bước và hỗ trợ lập lịch. Bản nghiên cứu xem trước miễn phí đến ngày 6 tháng 5; sau đó sẽ áp dụng tính phí theo credit, giá cả sẽ được công bố sau. Cạnh tranh cùng với GoogleGeminiEnterpriseAgentPlatform và AnthropicClaudeCowork, cả ba đều tập trung vào các tác nhân cấp doanh nghiệp nhưng định vị của từng bên là khác nhau.
ChainNewsAbmedia3giờ trước
Google Cloud Next 2026: Ra mắt Nền tảng đại lý doanh nghiệp Gemini, 750 triệu USD hỗ trợ các công ty tư vấn triển khai
Google Cloud tại Cloud Next 2026 đã công bố Nền tảng tác nhân doanh nghiệp Gemini Enterprise Agent Platform, tích hợp lựa chọn mô hình, xây dựng tác nhân, DevOps, điều phối và kiểm soát an ninh cho doanh nghiệp, đồng thời ra mắt quỹ 750 triệu USD để hỗ trợ McKinsey, Accenture, Deloitte triển khai các tác nhân doanh nghiệp. Nền tảng kết hợp Ironwood TPU, A2A và MCP, xây dựng hệ sinh thái toàn ngăn của riêng mình cùng kênh dành cho tư vấn, nhằm đối đầu với OpenAI Operator và phiên bản doanh nghiệp của Anthropic Claude.
ChainNewsAbmedia3giờ trước