قوقل تقترح منهجية تقييم مستمرة للهندسة لمواجهة تحديات تقييم بيئة إنتاج وكلاء الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم

أخبار ME، 4 أبريل (UTC+8). مؤخراً، نشر GoogleCloudTech مقالاً أشار فيه إلى أنه في بيئات الإنتاج الاعتماد على الدردشة اليدوية والمشاعر/الانطباعات الذاتية (أي “فحص الأجواء”) لتقييم وكلاء الذكاء الاصطناعي غير موثوق، وقد يؤدي إلى كوارث. يرى المقال أن طبيعة الذكاء الاصطناعي التوليدي الاحتمالية تجعل أي تغييرات صغيرة في المطالبات أو أوزان النموذج قد تؤدي إلى تدهور ملحوظ في الأداء. ولحل هذه المشكلة، يقترح المقال منهجاً هندسياً لتطبيق التقييم المستمر (CE). يميّز هذا الأسلوب بين نمطين في هندسة الذكاء الاصطناعي: نمط الاستكشاف (المختبر) ونمط الدفاع (المصنع). يركز نمط الاستكشاف على العثور على إمكانات النموذج عبر عدد قليل من الأمثلة وفحص الأجواء؛ أما نمط الدفاع فيركز على الاستقرار، من خلال التقييمات القائمة على مجموعات البيانات، والبوابات الصارمة، ومؤشرات الأتمتة لضمان أن يحقق النظام أهداف مستوى الخدمة (SLO). يحذر المقال من أن العديد من الفرق تبقى لفترة طويلة في نمط الاستكشاف. ويورد في النص أيضاً مثالاً على نظام متعدد الوكلاء موزع (نظام منشئي الدروس) تم بناؤه اعتماداً على Cloud Run وبروتوكول Agent2Agent، ليوضح تطبيقات نمط الدفاع لإطلاق نشرات موثوقة وقابلة للتوسع من الذكاء الاصطناعي على مستوى الإنتاج، وذلك عبر التركيز على مبدأ فصل الاهتمامات ووكلاء متخصصين (مثل الباحث، والقاضي، والبنّاء/منشئ المحتوى، والمنسق). (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت