ادّعت منظومة ذاكرة الذكاء الاصطناعي MemPalace التي شاركت في تطويرها ميلا جوفوفيتش أنها حصلت على الدرجة الكاملة في الاختبارات فانتشرت بسرعة، لكن مجتمع المطورين فضحها سريعًا بسبب مزاعم الغش في الاختبارات والتضليل بالبيانات. كشفت الاختبارات الفعلية عن تضخيم في النتائج ووجود عدد كبير من الأخطاء. واعترف الفريق بوجود عيوب وبدأ العمل على إصلاحها.
أمس (4/7)، كان لدى مجتمع الذكاء الاصطناعي خبر كبير: الممثلة الهوليوودية ميلا جوفوفيتش (Milla Jovovich)، المعروفة بأعمال مثل《Resident Evil》و《The Fifth Element》، إلى جانب المطور Ben Sigman، استخدما Claude Code للمساعدة في تطوير نظام ذاكرة ذكاء اصطناعي مفتوح المصدر باسم «MemPalace».
في لحظة، انتشرت على نطاق واسع مقولة «نجم هوليوود عملاق يعبر إلى مجالات أخرى ويصنع مشروعًا كاملاً بدرجة مثالية». حتى الآن، حصل MemPalace في GitHub على أكثر من 20 ألف نجمة، لكن الأمر سرعان ما أثار شكوك مجتمع المطورين: هل كانت فيه مادة فعلًا أم أنه مجرد تسويق؟
لنبدأ من الدافع وراء ظهور MemPalace. توضح الوثائق الرسمية أن الهدف هو معالجة مشكلة استخدام أنظمة الذكاء الاصطناعي الحالية: فمحتوى الحوار مع الذكاء الاصطناعي، وعمليات اتخاذ القرار، ومناقشات بنية النظام غالبًا ما تختفي بعد انتهاء جلسة العمل، ما يؤدي إلى تبخر أشهر من الجهد.
ولحل هذه المشكلة، يستخدم MemPalace هيكلًا مكانيًا لتخزين الذاكرة، حيث يتم تصنيف المعلومات بوضوح إلى مناطق أجنحة تمثل أشخاصًا أو مشاريع، وإلى هياكل بمستويات مختلفة مثل الممرات والغرف والأدراج، مع الاحتفاظ بالنص الأصلي للحوار كي تتمكن عمليات الاسترجاع الدلالي اللاحقة من البحث عنه.
يدّعي فريق التطوير أن MemPalace حقق 100% كأداء مثالي في معيار التقييم للذاكرة طويلة الأمد LongMemEval، وأنه وصل إلى 96.6% من الدقة دون استدعاء أي واجهات برمجة تطبيقات خارجية. ويؤكد كذلك أنه يمكن تشغيله بالكامل على الجهاز المحلي دون الحاجة إلى الاشتراك في خدمات سحابية، وأنه يتضمن نظامًا لهجة AAAK يُزعم أنه قادر على تحقيق ضغط بلا فقدان بمعدل 30 ضعفًا.
مصدر الصورة: GitHub نجمة أفلام أميركية ميلا جوفوفيتش تبني قصر ذاكرة للذكاء الاصطناعي، ما يثير اهتمامًا خارجيًا
لكن إنجاز MemPalace الذي يزعمه في LongMemEval بدرجة كاملة سرعان ما استدعى شكوك الجهات المنافسة.
أشار PenfieldLabs، الذي يصنع أيضًا أنظمة ذاكرة للذكاء الاصطناعي، إلى أن ادعاء MemPalace بتحقيق درجة كاملة في مجموعة بيانات LoCoMo أمر مستحيل رياضيًا، لأن الإجابات النموذجية في مجموعة البيانات نفسها تتضمن 99 خطأ.
حلّل PenfieldLabs ووجد أن نتيجة MemPalace بنسبة 100% جاءت من ضبط عدد عمليات الاسترجاع إلى 50 مرة، بينما يبلغ العدد الأعلى لمراحل الحوار في بيانات الاختبار 32 مرة فقط. وهذا يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرةً، ويُسلّم جميع البيانات لنموذج الذكاء الاصطناعي لقراءتها.
وبالنسبة لنتيجة 100% في LongMemEval، تبيّن أن الفريق المطور كان يستهدف 3 مشكلات محددة ظهرت في التطوير والتركيز عليها، ثم كتب رموز إصلاح مخصصة، ما يثير شبهات حول الغش في مجموعة الاختبار.
مصدر الصورة: Reddit أشار PenfieldLabs من مجتمع المنافسين إلى أن MemPalace يزعم تحقيق درجة كاملة في مجموعة بيانات LoCoMo، وهو أمر مستحيل رياضيًا
علّق مستخدم GitHub hugooconnor بعد إجراء اختبار واقعي، بأن MemPalace يدّعي نسبة دقة استرجاع تصل إلى 96.6%، إلا أنه فعليًا لم يستخدم على الإطلاق بنية قصر الذاكرة المروَّجة من MemPalace. يقول hugooconnor إن اختباراتهم كانت مجرد استدعاء الوظيفة الافتراضية لقاعدة البيانات الأساسية ChromaDB، دون أي علاقة بمنطق التصنيف المتمثل في أجنحة أو غرف أو أدراج تشدّد عليه الفكرة في المشروع.
وبعد اختبارهم، وجد hugooconnor أنه عندما يتم بالفعل تفعيل منطق التصنيف الخاص بهذه «قصور الذاكرة»، تنخفض نتائج الاسترجاع بدلًا من ذلك. فعلى سبيل المثال، في وضع الغرفة تنخفض الدقة إلى 89.4%، وبعد تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%، وكلاهما أقل من أداء قاعدة البيانات الافتراضي.
انتقد hugooconnor أيضًا منهجية الاختبار: فقد تعمّد بيئة اختبار MemPalace تضييق نطاق الاسترجاع لكل سؤال إلى حوالي 50 مرحلة حوار، أي أن البحث عن الإجابات ضمن مجموعة عينات صغيرة جدًا يجعل المهمة سهلة للغاية.
وعند توسيع النطاق ليشمل أكثر من 19,000 مرحلة حوار في سيناريوهات واقعية، تنخفض دقة البحث بالكلمات المفتاحية التقليدية بشدة إلى 30%، ما يشير إلى أن أسلوب اختبار MemPalace الحالي يُخفي مشكلة البحث الحقيقية.
مصدر الصورة: GitHub اختبار مستخدمي GitHub على أرض الواقع، يحتوي معيار MemPalace على عنصر تضليل
وفي الوقت نفسه، رغم أن فريق التطوير نشر بيان تصحيح، معترفًا بأن تقنية AAAK تم التحقق منها بالفعل كضغط مع فقدان، ومتعهّدًا بتعديل وثائق الإيضاح وتصميم النظام وفقًا للانتقادات الشديدة من المجتمع، فإن الوثائق الرئيسية الخاصة بالمشروع ما زالت تحافظ على عدة ادعاءات مُبالغ فيها غير مصححة. وتشمل هذه الادعاء بأن الضغط بلا فقدان يصل إلى 30 ضعفًا وتحسين الاسترجاع بنسبة 34%، كما أن المقارنات الرسومية مع المنافسين الآخرين تفتقر تمامًا إلى مصادر موثوقة.
ومع قيام المزيد والمزيد من المطورين بتنزيل الاختبارات، ظهرت على منصة GitHub كمية كبيرة من تقارير الأخطاء المتعلقة بملفات شفرة MemPalace.
قام المستخدم cktang88 بإدراج عدة عيوب خطيرة، بما في ذلك أن أوامر الضغط لا تعمل وتتسبب في تعطل النظام، ووجود أخطاء في منطق حساب عدد الكلمات في الملخص، وعدم دقة البيانات الإحصائية المتعلقة باستخراج الغرف، إضافةً إلى مشكلة تشغيلية تتمثل في أن الخادم يقوم عند كل استدعاء بتحميل جميع بيانات الشروح إلى الذاكرة، ما يسبب مشكلة استهلاك موارد كبيرة.
تشمل المشكلات الأخرى التي تم الإشارة إليها أيضًا أن النظام يكتب أسماء أفراد عائلة المطور بشكل إجباري في ملف الإعدادات الافتراضي، فضلًا عن وجود حد إلزامي لعرض 10,000 سجل عند الاستعلام عن الحالة.
وبخصوص هذه المشكلات، بدأ مجتمع المصادر المفتوحة بالفعل في إجراء إصلاحات نشطة. قام المستخدم adv3nt3 بتقديم عدةطلباتإصلاح، تشمل تصحيح البيانات الإحصائية للاستخراج، وإزالة أسماء أفراد العائلة الافتراضية، وتأخير وقت تهيئة بنية المعرفة (knowledge graph). كما اعترف فريق التطوير لاحقًا بهذه الأخطاء، ويعمل عبر تعاون مجتمعي على حل مشكلات الشيفرة تدريجيًا.
بالنسبة إلى مشروع MemPalace، توصل أحد مستخدمي Hacker News يدعى darkhanakh إلى نتيجة مفادها: يبدو MemPalace وكأنه لديه انطباع OpenClaw، أي أنه يتم التلاعب يدويًا بنتائج الاختبارات القياسية (benchmark) لتبدو مثالية، ثم يتم تغليفها بعد ذلك على أنها اختراق كبير للتسويق.
ويرى أن التقنية الأساسية في MemPalace قد تكون مثيرة للاهتمام بالفعل، لكن في ظل وجود مثل هذه العيوب في منهجية الاختبار، لا ينبغي أن يتم الترويج لها على أنها «أعلى درجة علنية على الإطلاق»، وهذا غير مناسب تمامًا. «لكن، فيما يخص أن ميلا جوفوفيتش تلعب Vibe Coding، فأنا أعتقد أنها ما زالت ممتعة فعلًا.»
قراءة إضافية:
خرج مشروع كتابة الأكواد عن السيطرة! تطبيق «صيد الطعام قبل انتهاء صلاحيته» لمنتجات يومية من المتجر يسبب مشاكل أمن معلومات، والـ GPS داخل المنزل يكشف خصوصية كاملة