Gate News 消息,4月27日——Google DeepMind 高级产品经理、Google AI Studio 产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应建立各自的定制基准,以衡量 AI 模型的性能。他将其描述为一种方法,用于让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”
目前,大多数公司依赖公开排行榜来选择 AI 模型,但这些榜单衡量的是通用能力,往往与特定业务场景不匹配。Kilpatrick 举例称,一家合同审查公司最关心的是条款提取的准确性——而这项能力在公开基准中缺失,导致无法评估模型在该任务上的表现。定制基准具有两项关键优势:首先,它们使公司能够针对自身业务任务评估每一次模型更新,并选择在实际使用场景中表现最佳的模型,而不是选择总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而在与业务相关的领域推动持续优化。
Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在采用这种做法,并表示“这里可以创造出大量的 α(超额收益/优势)。”
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
الوكالة الدولية للطاقة: إن إنفاق البنية التحتية للذكاء الاصطناعي قد تجاوز بالفعل استثمارات إنتاج النفط والغاز، ومن المتوقع أن يزيد بنسبة 75% أخرى في عام 2026
وفقًا لتحليل وبيانات السوق الصادرة عن وكالة الطاقة الدولية (IEA) في 26 أبريل، تجاوز إجمالي النفقات الرأسمالية لدى أكبر خمس شركات تكنولوجية في عام 2025 400 مليار دولار، وتم توجيهها بشكل أساسي إلى بناء البنية التحتية للذكاء الاصطناعي، حيث أصبحت أحجامها تتجاوز حجم الاستثمار السنوي عالميًا في إنتاج النفط والغاز الطبيعي. وتقدّر وكالة الطاقة الدولية أن النفقات الرأسمالية ذات الصلة في عام 2026 قد تنمو أكثر بنسبة 75%.
MarketWhisperمنذ 32 د
ينتقد السيناتور بيرني ساندرز التحذير من التهديد الوجودي الذي يشكّله الذكاء الاصطناعي
شدد ساندرز على أنه حتى مع اعتراف أغلب علماء الذكاء الاصطناعي بإمكانية هروب الذكاء الاصطناعي من السيطرة وتحوله إلى خطر على وجودنا، لم يتم اتخاذ أي تدابير رئيسية لتفادي ذلك. وقال: “يجب أن نتأكد من أن الذكاء الاصطناعي يفيد البشرية، لا أن يؤذينا”.
أبرز النقاط الرئيسية:
بيرني ساندرز
Coinpediaمنذ 42 د
مدير مسؤول نموذج مايكروسوفت الكبير لدى Xiaomi: تتجه المنافسة في مجال الذكاء الاصطناعي إلى عصر الوكلاء (Agent)، ويُعدّ التطور الذاتي حدثًا محوريًا نحو الذكاء الاصطناعي العام (AGI)
يتولى رئيس فريق نماذج Xiaomi الكبيرة، لوو فولي، في 24 أبريل إجراء مقابلة معمقة على منصة بيليبيلي (رقم الفيديو: BV1iVoVBgERD)، لمدة 3.5 ساعة، وهي أول مرة تقدم فيها بشكل علني ومنهجي وجهات نظرها التقنية بصفة مسؤولة تقنية. تقول لوو فولي إن مسار المنافسة على نماذج الذكاء الكبير قد انتقل من عصر المحادثة (Chat) إلى عصر الوكلاء (Agent)، مشيرة إلى أن «التطور الذاتي» سيكون الحدث الحاسم للذكاء الاصطناعي العام (AGI) خلال العام القادم.
MarketWhisperمنذ 42 د
تتولى خدمة صوت xAI Grok الخط الساخن لخدمة عملاء Starlink، ويتم إغلاق 70% من المكالمات تلقائيًا
وفقًا للإعلان الرسمي الصادر عن xAI في 23 أبريل، طرحت xAI وكيلًا للذكاء الاصطناعي الصوتي Grok Voice Think Fast 1.0، وقد تم نشره في خط خدمة العملاء التابع لـ Starlink +1 (888) GO STARLINK. ووفقًا لبيانات الاختبار الفعلية التي كشفت عنها الإعلانات، فإن 70% من المكالمات يتم إنهاؤها تلقائيًا بواسطة الذكاء الاصطناعي دون الحاجة إلى تدخل بشري.
MarketWhisperمنذ 54 د
GPT-5.5 تعود إلى الصدارة في البرمجة، لكن OpenAI تغيّر المعايير بعد الخسارة أمام Opus 4.7
رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم "Spud" وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5، مع S
GateNewsمنذ 58 د