يزعم نظام الذاكرة بالذكاء الاصطناعي MemPalace الذي شاركت في تطويره مِلا جوفوفيتش فاكي (Milla Jovovich) أنه حصل على اختبار كامل الدرجات فانتشر بسرعة، لكن تم فضحه من قبل المجتمع بسبب الاشتباه في الغش في الاختبارات والتضليل بالبيانات. أظهرت التجارب العملية مبالغة في النتائج ووجود عدد كبير من الأخطاء. اعترف الفريق بالمشكلات وبدأ العمل على إصلاحها.

مِلا جوفوفيتش فاكي تبني «قصر الذاكرة» بالذكاء الاصطناعي وتثير اهتمامًا خارجيًا

بالأمس (4/7)، كان هناك خبر كبير في مجتمع الذكاء الاصطناعي: النجمة الهوليوودية مِلا جوفوفيتش (Milla Jovovich)، المشهورة بأفلام مثل «Resident Evil» و«The Fifth Element»، بالتعاون مع المطور Ben Sigman باستخدام Claude Code، طورت نظام «MemPalace» مفتوح المصدر لتقنية ذاكرة AI.

في وقت قصير، انتشرت على نطاق واسع مقولة «نجمة هوليوودية عملاقة تتقاطع مع العمل وتنتج مشروعًا بدرجة ممتازة»، وحصل MemPalace حتى الآن على أكثر من 20 ألف نجمة على GitHub، لكن سرعان ما أثار ذلك شكوك مجتمع المطورين: هل يوجد محتوى فعلاً أم مجرد ترويج؟

لنبدأ بالحديث عن الدافع وراء ظهور MemPalace. توضح الوثائق الرسمية أن الهدف هو حل المشكلة التي مفادها أن محتوى محادثات المستخدمين مع أنظمة الذكاء الاصطناعي، وأثناء مراحل اتخاذ القرار، ونقاشات البنية، عادةً ما تختفي بعد انتهاء جلسة العمل، مما يؤدي إلى قيد يذهب فيه جهد أشهر إلى انخفاض إلى الصفر.

ولحل هذه المشكلة، يستخدم MemPalace بنية مكانية لتخزين الذاكرة، حيث يتم تصنيف المعلومات بوضوح إلى مناطق جناح تمثل أشخاصًا أو مشاريع محددة، وكذلك إلى هياكل على مستويات مختلفة مثل الممرات والغرف والدرج، مع الحفاظ على النص الأصلي للمحادثات من أجل الاسترجاع الدلالي لاحقًا.

يعلن فريق التطوير أن MemPalace حصل على نتيجة مثالية بنسبة 100% في معيار التقييم للذاكرة طويلة الأمد LongMemEval، وأنه حقق نسبة دقة 96.6% دون استدعاء أي واجهات برمجة تطبيقات خارجية. كما يمكن تشغيله بالكامل محليًا دون الحاجة للاشتراك في خدمات سحابية، ويأتي مع نظام لهجة AAAK يزعم أنه قادر على تحقيق ضغط بلا فقدان بمقدار 30 ضعف.

مصدر الصورة: GitHub نجمة هوليوودية مِلا جوفوفيتش فاكي تبني قصر ذاكرة بالذكاء الاصطناعي، وتثير اهتمامًا خارجيًا

زملاء ومجتمع يشكون في الأمر معًا، واختبارات مع طريقة دعائية مليئة بالثغرات

لكن أداء MemPalace الذي يُزعم أنه حصل على درجة كاملة في LongMemEval سرعان ما أثار شكوكًا من الزملاء.

أشار PenfieldLabs، وهو مختبر يطور كذلك أنظمة ذاكرة للذكاء الاصطناعي، إلى أنه من غير الممكن رياضيًا أن يحصل MemPalace على درجة كاملة في مجموعة البيانات LoCoMo، لأن الإجابات القياسية في مجموعة البيانات نفسها تتضمن 99 خطأ.

حلل PenfieldLabs ووجد أن نتيجة MemPalace بنسبة 100% جاءت من ضبط عدد عمليات الاسترجاع على 50 مرة، بينما فإن عدد مراحل الحوار الأعلى في بيانات الاختبار يبلغ 32 مرة فقط؛ وهذا يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرةً ويقدم جميع البيانات إلى نموذج الذكاء الاصطناعي ليقرأها.

وبالنسبة لنتيجة 100% في LongMemEval، تبين أن فريق التطوير يواجه 3 مشكلات محددة حدثت ضمن التطوير المركّز، وأنه كتب كود إصلاح مخصص لها، ما يثير الشبهة بوجود غش موجه ضد مجموعة الاختبار.

مصدر الصورة: Reddit زميل PenfieldLabs يشير إلى أنه من غير الممكن رياضيًا أن يحصل MemPalace على درجة كاملة في مجموعة بيانات LoCoMo

اختبار عملي من مستخدمي GitHub: نسبة القياس تتضمن عنصر تضليل

علّق مستخدم GitHub hugooconnor بعد إجراء اختبارات عملية، قائلاً إن MemPalace يُفترض أنه يحقق نسبة دقة للاسترجاع تصل إلى 96.6%، لكن في الواقع لم يتم استخدام بنية «قصر الذاكرة» التي يروّج لها MemPalace. يذكر hugooconnor أن الاختبار لديهم ببساطة يقوم باستدعاء الوظيفة الافتراضية لقاعدة البيانات الأساسية ChromaDB، دون أي علاقة بمنطق التصنيف المزعوم في المشروع مثل منطق المناطق الجناحية أو الغرف أو الأدراج.

بعد الاختبار، وجد hugooconnor أنه عندما يتم تفعيل منطق التصنيف الخاص بقصر الذاكرة فعليًا داخل النظام، فإن أداء الاسترجاع يتدهور. فعلى سبيل المثال، تنخفض الدقة في نمط الغرف إلى 89.4%، وعند تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%، وكلا النتيجتين أقل من أداء قاعدة البيانات الافتراضي.

انتقد hugooconnor أيضًا طريقة الاختبار. إذ تقوم بيئة اختبار MemPalace عمدًا بتضييق نطاق الاسترجاع لكل مشكلة إلى حوالي 50 مرحلة من الحوار، مما يجعل العثور على الإجابات أمرًا سهلًا للغاية داخل مجموعة عينات صغيرة جدًا.

إذا تم توسيع النطاق ليشمل أكثر من 19,000 مرحلة حوار في سيناريوهات واقعية، فإن دقة البحث بالكلمات المفتاحية التقليديّة تنخفض إلى 30% فقط، ما يبيّن أن طريقة اختبار MemPalace الحالية تُخفي مشكلة البحث الحقيقية.

مصدر الصورة: GitHub مستخدم GitHub أجرى اختبارًا عمليًا، وMemPalace معيار الاختبار يتضمن عنصر تضليل

وفي الوقت نفسه، وعلى الرغم من أن فريق التطوير نشر بيانًا للتصحيح واعترف بأن تقنية AAAK تم التحقق منها كضغط مع فقدان، وتعهد بتعديل وصف الوثائق وتصميم النظام وفقًا لانتقادات المجتمع الشديدة، فإن الوثيقة التفسيرية الرئيسية للمشروع لا تزال تحتفظ بعدة ادعاءات مبالغ فيها غير مُصححة. تشمل هذه الادعاءات ادعاء ضغط بلا فقدان 30 ضعف وتحسينًا في الاسترجاع بنسبة 34%، كما أن المخططات المقارنة مع المنافسين الآخرين تفتقر تمامًا إلى مصادر.

مواجهة كود MemPalace الأصلي لعدد من الأخطاء (Bug)

مع قيام عدد متزايد من المطورين بتحميل الاختبارات، تظهر على منصة GitHub العديد من تقارير الأخطاء حول كود MemPalace الأصلي.

قائمة المستخدم cktang88 بعدة عيوب خطيرة، تتضمن أن أوامر الضغط لا تعمل وتؤدي إلى تعطل النظام، ووجود خطأ في منطق حساب عدد الكلمات في الملخص، وأن إحصاءات التنقيب عن الغرف غير دقيقة، إضافةً إلى أن الخادم عند كل استدعاء يقوم بتحميل جميع بيانات التفسير إلى الذاكرة، مما يسبب مشكلة استهلاك موارد شديد.

ومن بين المشكلات الأخرى التي تم الإشارة إليها أيضًا أن النظام يكتب أسماء أفراد عائلة المطورين بشكل إجباري في ملف الإعداد الافتراضي، وأن هناك حدًا إجباريًا لعرض 10k سجل عند الاستعلام عن الحالة.

وبالنسبة لهذه المشكلات، بدأ مجتمع البرمجيات مفتوحة المصدر بالفعل في إصلاحها بنشاط. قام المستخدم adv3nt3 بتقديم عدة طلباتلإصلاح، تشمل تصحيح بيانات إحصاءات التنقيب، وإزالة أسماء أفراد العائلة الافتراضية، وتأخير وقت تهيئة initialization لخرائط المعرفة (knowledge graph). كما اعترف فريق التطوير لاحقًا بهذه الأخطاء، وهو يعمل تدريجيًا على حل مشاكل الكود بالتعاون مع المجتمع.

ترفيه «Vibe Coding» لمِلا جوفوفيتش رائع، لكن أسلوب التسويق غير رائع

بالنسبة لمشروع MemPalace، توصل أحد مستخدمي Hacker News المسمى darkhanakh إلى خلاصة: يترك MemPalace انطباعًا بما يشبه OpenClaw، أي أنه يتم التلاعب بنتائج معيار الاختبار (benchmark) بشكل اصطناعي لتبدو كاملة بلا عيوب، ثم يتم تغليفها والترويج لها على أنها نوع من الاختراق الكبير.

يرى أن التقنية الأساسية في MemPalace قد تكون بالفعل مثيرة للاهتمام، لكن في ظل وجود هذه العيوب في طريقة الاختبار، ومن ثم الترويج أيضًا بعبارة «أعلى درجة علنية في التاريخ» لا يبدو ذلك مناسبًا جدًا، «لكن، بصراحة، فكرة أن مِلا جوفوفيتش تمارس Vibe Coding هذه، أظن أنها ما زالت ممتعة.»

قراءة إضافية:
خرجت كتابة الكود عن السيطرة! تطبيق «صيّاد الصدور» المعني بمنتجات اليوم/صندوق المتجر ذا صلاحية محدودة يُظهر مشكلة في أمن المعلومات، والجهاز GPS في المنزل يرسل بياناته مكشوفة بالكامل

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.