يزعم نظام الذاكرة بالذكاء الاصطناعي MemPalace الذي تشارك في تطويره ميلا جوفوفيتش أنه حقق درجة اختبار كاملة فانتشر بسرعة، لكن المجتمع قام بمهاجمته، متهمًا الاختبارات بالغش وتضليل البيانات. ووجدت التجربة الفعلية أن النتائج مبالغ فيها وبها عدد كبير من الأخطاء؛ وقد اعترف الفريق بالعيوب وبدأ العمل على إصلاحها.
أمس (4/7)، كانت هناك أخبار كبيرة داخل مجتمع الذكاء الاصطناعي مفادها أن النجمة السينمائية الهوليوودية ميلا جوفوفيتش (Milla Jovovich)، المعروفة بأفلام مثل《Resident Evil》و《The Fifth Element》، عملت مع المطور Ben Sigman باستخدام Claude Code لتطوير نظام ذاكرة للذكاء الاصطناعي مفتوح المصدر باسم «MemPalace».
في فترة وجيزة، انتشرت على نطاق واسع رواية «نجمة هوليوودية عملاقة تتقاطع وتقدم مشروعًا بدرجة كاملة»، وقد حصل MemPalace حتى الآن في GitHub على أكثر من 20 ألف نجمة، لكن الأمر لم يلبث أن أثار شكوك مجتمع المطورين: هل لدى المشروع ما يستحق فعلًا أم أنه مجرد ترويج؟
لنبدأ بشرح الدافع وراء ظهور MemPalace؛ تقول الوثائق الرسمية إن الهدف هو معالجة المشكلة المتمثلة في أن محتوى محادثات المستخدمين مع أنظمة الذكاء الاصطناعي، وعملية اتخاذ القرار ومناقشات الهيكل، غالبًا ما تختفي بعد انتهاء جلسة العمل، ما يؤدي إلى ضياع أشهر من الجهد.
ولحل هذه المشكلة، يستخدم MemPalace بنية مكانية لتخزين الذاكرة، مع تصنيف المعلومات بشكل واضح إلى مناطق الأجنحة التي تمثل الأشخاص أو المشاريع المعنيين، إضافةً إلى هياكل بمستويات مختلفة مثل الممرات والغرف والأدراج، مع الاحتفاظ بالنص الأصلي للمحادثة لاسترجاع المعنى لاحقًا.
يزعم فريق التطوير أن MemPalace حقق 100% في معيار تقييم الذاكرة طويلة الأمد LongMemEval، كما وصل إلى نسبة دقة 96.6% دون استدعاء أي واجهة برمجة تطبيقات خارجية، ويمكنه العمل بالكامل على الجهاز المحلي دون الحاجة إلى الاشتراك في خدمات سحابية، كما يتضمن نظامًا بلهجة AAAK يُدّعى أنه يحقق ضغطًا بلا فقدان يصل إلى 30 ضعف.
مصدر الصورة: GitHub النجمة السينمائية الأمريكية ميلا جوفوفيتش تبني «قصر ذاكرة» للذكاء الاصطناعي، ما يلفت انتباه العالم
لكن نتيجة ادعاء MemPalace بالتحقق من LongMemEval بدرجة كاملة سرعان ما جذبت أيضًا اعتراضًا من الزملاء.
أشار PenfieldLabs، الذي ينتج أيضًا أنظمة ذاكرة للذكاء الاصطناعي، إلى أن ادعاء MemPalace بأنه حقق درجة كاملة في مجموعة بيانات LoCoMo أمر غير ممكن رياضيًا، لأن الإجابات القياسية في هذه المجموعة نفسها تتضمن 99 خطأ.
حلل PenfieldLabs ووجد أن إنجاز MemPalace بنسبة 100% ناتج عن ضبط عدد عمليات الاسترجاع على 50 مرة، لكن عدد مراحل الحوار الأعلى في مجموعة الاختبار يبلغ 32 مرة فقط؛ وهذا يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرةً، ويقدم جميع البيانات إلى نموذج الذكاء الاصطناعي لقراءتها.
وبخصوص نتيجة 100% في LongMemEval، تم اكتشاف أن فريق التطوير قد استهدف 3 مشكلات محددة حدثت في مرحلة التركيز على التطوير، وكتب أكواد إصلاح خاصة بها، ما يثير شبهات حول الغش في مجموعة الاختبار.
مصدر الصورة: Reddit زميل PenfieldLabs يشير إلى أن MemPalace يدعي تحقيق درجة كاملة في مجموعة بيانات LoCoMo، وهو أمر غير ممكن رياضيًا
بعد إجراء اختبار فعلي، علّق مستخدم GitHub hugooconnor بأن MemPalace يدعي أن دقة الاسترجاع تصل إلى 96.6%، لكن في الواقع لم يتم استخدام بنية «قصر الذاكرة» التي يروج لها MemPalace على الإطلاق. ويقول hugooconnor إن اختبارهم مجرد استدعاء الميزة الافتراضية لقاعدة البيانات الأساسية ChromaDB، دون أي تدخل في منطق التصنيف الخاص بالمشروع مثل منطق «أجنحة» أو «غرف» أو «أدراج».
بعد الاختبار، اكتشف hugooconnor أنه عندما يقوم النظام فعلًا بتفعيل منطق التصنيف الخاص بهذه «الأقسام» من «قصر الذاكرة»، تتراجع نتيجة الاسترجاع بدلًا من أن تتحسن. فعلى سبيل المثال، تنخفض الدقة إلى 89.4% في وضع الغرفة، وبعد تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%، وكلاهما أقل من أداء قاعدة البيانات الافتراضي.
كما انتقد hugooconnor طريقة الاختبار؛ إذ قام MemPalace عمدًا بتضييق نطاق الاسترجاع لكل سؤال إلى حوالي 50 مرحلة حوار ضمن مجموعة عينات صغيرة جدًا، ما يجعل البحث عن الإجابات أمرًا سهلًا للغاية.
إذا تم توسيع النطاق ليشمل أكثر من 19,000 مرحلة حوار في سياق حقيقي، فإن دقة البحث التقليدي بالكلمات المفتاحية ستنخفض بشكل حاد إلى 30%، ما يُظهر أن طريقة اختبار MemPalace الحالية تخفي مشكلة البحث الفعلية الصعبة.
مصدر الصورة: GitHub مستخدمو GitHub يختبرون فعليًا ويشيرون إلى أن اختبار معيار MemPalace يحتوي على عنصر مضلل
وفي الوقت نفسه، وعلى الرغم من أن فريق التطوير قد نشر بيان تصحيح يعترف بأن تقنية AAAK تم التحقق منها فعلًا كضغط مع فقدان، وتعهد بإجراء تعديلات على وثائق النظام وتصميمه وفقًا لانتقادات المجتمع الشديدة، فإن الوثيقة الرئيسية التي يشرح فيها المشروع لا تزال تحتفظ بعدة ادعاءات مبالغ فيها دون تصحيح، بما في ذلك الادعاء بضغط بلا فقدان بعامل 30 ورفع الاسترجاع بنسبة 34%، كما أن مقارنة الرسوم البيانية مع المنافسين الآخرين تفتقر تمامًا إلى مصادرها ومراجعها.
مع زيادة عدد المطورين الذين قاموا بتنزيل الاختبارات، ظهرت على منصة GitHub العديد من تقارير الأخطاء (Bug) المتعلقة ببرمجية MemPalace الأصلية.
قام المستخدم cktang88 بإدراج عدة عيوب خطيرة، بما في ذلك أن تعليمات الضغط لا تعمل ما يؤدي إلى تعطل النظام، ووجود خطأ في منطق حساب عدد كلمات الملخص، وعدم دقة بيانات إحصاءات حفر الغرف، إضافةً إلى أن الخادم يقوم عند كل استدعاء بتحميل جميع بيانات التفسير إلى الذاكرة، ما يسبب مشكلة استهلاك موارد شديد.
ومن بين المشكلات الأخرى التي تم الإشارة إليها، أيضًا أن النظام يكتب أسماء أفراد عائلة المطور بشكل إجباري في ملف الإعدادات الافتراضي، وتوجد حد أعلى إجباري لعرض 10k سجل عند الاستعلام عن الحالة.
وبالنسبة لهذه المشكلات، بدأ مجتمع المصادر المفتوحة العمل بشكل نشط على الإصلاح. قام المستخدم adv3nt3 بتقديم عدةطلباتإصلاح، تشمل تصحيح بيانات إحصاءات الحفر، وإزالة اسم أحد أفراد العائلة الافتراضي، وتأخير وقت تهيئة رسم خرائط المعرفة (knowledge graph). كما اعترف فريق التطوير لاحقًا بهذه الأخطاء، وهو يعمل بالتعاون مع المجتمع على حل مشكلات الشفرة تدريجيًا.
بالنسبة لمشروع MemPalace، توصل أحد مستخدمي Hacker News، darkhanakh، إلى نتيجة مفادها: يبدو MemPalace كما لو كان لديه «إحساس OpenClaw»، أي التلاعب الاصطناعي بنتائج اختبار المعيار (benchmark) ليظهر مثاليًا تمامًا، ثم تغليفه وتسويقه على أنه نوع من الاختراق الكبير.
ويرى أن التقنية الأساسية لـ MemPalace قد تكون بالفعل مثيرة للاهتمام، لكن في حال وجود عيوب من هذا النوع في طريقة الاختبار، وما يزال يتم الترويج له تحت شعار «أعلى نتيجة علنية في التاريخ»، فهذا غير مناسب إلى حد كبير، «لكن، بصراحة، بما أن ميلا جوفوفيتش تلعب Vibe Coding، فأنا أعتقد أن هذا لا يزال ممتعًا جدًا.»
قراءة موسعة:
AI يكتب الكود ويقع في مشكلة! تطبيق «صياد الصيد» لمنتجات صيدليات/متاجر البقالة بمنتجات تاريخ انتهاء صلاحيتها قصير «惜食獵人» ينفجر بمشكلات أمن المعلومات، وتجربة GPS في المنزل تكشف العري للجميع