Hat Milla Jovovich mit KI ein „Full-Score-Projekt“ erstellt? Entwickler-Tests: Ist das wirklich Substanz oder übertriebene Werbeaufregung?

CryptoCity

Das von Milla Jovovich mitentwickelte KI-Erinnerungssystem MemPalace behauptet, bei Tests eine Punktzahl von 100% erreicht zu haben und sei damit viral gegangen. Doch die Community deckte auf, dass die Tests angeblich geschummelt hätten und die Daten irreführend dargestellt worden seien. Ein Praxistest ergab, dass die Wirkung übertrieben wurde und es zahlreiche Fehler gibt. Das Team hat die Mängel eingeräumt und arbeitet bereits an der Behebung.

Milla Jovovich baut KI-Erinnerungspalast – stößt auf großes öffentliches Interesse

Gestern (4/7) gab es in der KI-Szene eine große Nachricht: Die Hollywood-Schauspielerin Milla Jovovich, bekannt geworden durch „Die Resident Evil“-Filme, entwickelte gemeinsam mit den Entwicklern Ben Sigman mithilfe von Claude Code das „MemPalace“-Open-Source-KI-Erinnerungssystem.

Kurz darauf verbreitete sich schnell die Aussage, „Hollywood-Ikone wechselt Genre und liefert ein Projekt mit Bestnote“. MemPalace hat bis heute auf GitHub mehr als 20.000 Sterne erhalten, doch schon bald kamen in der Entwickler-Community Zweifel auf: Steckt wirklich Substanz dahinter oder ist es nur ein Marketing-Schachzug?

Zuerst zur Motivation, aus der MemPalace entstanden ist: Laut den offiziellen Dokumenten soll damit ein Problem gelöst werden, dass bei derzeitigen KI-Systemen Inhalte aus der Unterhaltung mit KI, Entscheidungsprozesse und Diskussionsinhalte zur Architektur üblicherweise nach Abschluss der Arbeitssitzungen verschwinden. Das schränkt ein, dass monatelange Arbeit am Ende auf null zurückfällt.

Um dieses Problem zu lösen, nutzt MemPalace eine räumliche Struktur, um Erinnerungen zu speichern: Informationen werden klar in Flügelbereiche eingeordnet, die Personen oder Projekte repräsentieren, sowie in Strukturen auf unterschiedlichen Ebenen wie Gänge, Zimmer und Schubladen. Dadurch bleiben die Originalpassagen der Unterhaltung für spätere semantische Abfragen erhalten.

Das Entwicklungsteam behauptet, MemPalace habe in der langfristigen Erinnerungs-Evaluationsgrundlage LongMemEval eine perfekte Punktzahl von 100% erzielt und erreiche zudem ohne Aufruf irgendeiner externen API eine Genauigkeit von 96,6%. Außerdem könne es vollständig lokal betrieben werden, ohne ein Abonnement für Cloud-Dienste zu benötigen, und es sei mit einem AAAK-Dialekt-System ausgestattet, das angeblich bis zu 30-fache verlustfreie Komprimierung erreichen könne.

Bildquelle: GitHub Hollywood-Schauspielerin Milla Jovovich baut KI-Erinnerungspalast – stößt auf großes öffentliches Interesse

Kollegen und Community stellen alles gemeinsam in Frage, Testmethoden und Werbung haben Unstimmigkeiten

Doch die angebliche 100%-Leistung bei LongMemEval zog sehr schnell Zweifel seitens der Kollegen nach sich.

Der PenfieldLabs, der ebenfalls KI-Erinnerungssysteme entwickelt, wies darauf hin, dass es mathematisch unmöglich sei, dass MemPalace bei dem Datensatz LoCoMo eine perfekte Punktzahl erreicht, denn die Standard-Antworten in diesem Datensatz enthielten selbst bereits 99 Fehler.

PenfieldLabs analysierte und fand heraus, dass die 100%-Punktzahl von MemPalace darauf zurückzuführen ist, dass die Anzahl der Abrufe auf 50 Durchläufe eingestellt wurde. In den Dialogen des Testdatensatzes gibt es jedoch nur maximal 32 Stufen. Das bedeutet, dass das System die Abrufphase direkt umgeht und alle Daten dem KI-Modell zur Lektüre überlässt.

Im Hinblick auf die 100%-Punktzahl bei LongMemEval wurde außerdem entdeckt, dass das Entwicklungsteam an drei spezifischen Problemen gearbeitet hatte, bei denen es in der Entwicklungsphase etwas durcheinandergebracht hatte. Dabei existierten maßgeschneiderte Reparaturcode-Snippets, was den Verdacht auf Betrug bei den Tests nahelegt.

Bildquelle: Reddit Kollege PenfieldLabs weist darauf hin, dass es mathematisch unmöglich ist, dass MemPalace im LoCoMo-Datensatz eine perfekte Punktzahl erreicht

GitHub-Nutzer testen selbst: Die Benchmarks enthalten einen irreführenden Bestandteil

Der GitHub-Nutzer hugooconnor kommentierte nach dem Praxistest, dass MemPalace zwar eine Abrufgenauigkeit von bis zu 96,6% behauptet, tatsächlich aber das beworbene MemPalace-Erinnerungspalast-Konzept überhaupt nicht genutzt werde. hugooconnor sagte, dass ihre Tests lediglich die Standardfunktion der zugrunde liegenden Datenbank ChromaDB aufrufen würden und keinerlei Bezug zu der vom Projekt betonten Logik der Einteilung in Flügelbereiche, Zimmer oder Schubladen hätten.

Nach ihrem Test stellten hugooconnor fest, dass die Abrufsleistung stattdessen zurückgeht, sobald das System die speziellen Einteilungslogiken dieser Erinnerungspaläste wirklich aktiviert. Am Beispiel des Zimmer-Modus sank die Genauigkeit auf 89,4%, und nachdem die AAAK-Kompressionstechnologie aktiviert wurde, fiel sie noch weiter auf 84,2% – beides liegt unter der Leistung der Standard-Datenbank.

hugooconnor kritisierte außerdem die Testmethode: Die Testumgebung von MemPalace habe absichtlich den Abrufbereich für jede Frage so eingeschränkt, dass er nur etwa 50 Dialogphasen umfasst. In einer extrem kleinen Beispiel-Datenbasis nach Antworten zu suchen, sei zu einfach.

Wenn man den Bereich auf mehr als 19.000 Dialogphasen in realen Szenarien ausdehnt, würde die Genauigkeit der herkömmlichen Keyword-Suche drastisch auf 30% einbrechen. Das zeigt, dass die aktuelle Testmethode von MemPalace die realen Suchschwierigkeiten verdeckt.

Bildquelle: GitHub GitHub-Nutzer testen selbst: Der MemPalace-Benchmark enthält einen irreführenden Bestandteil

Gleichzeitig hat das Entwicklungsteam zwar bereits eine Korrekturerklärung veröffentlicht und eingeräumt, dass die AAAK-Technologie bei der Komprimierung tatsächlich verlustbehaftet ist; außerdem hat es zugesagt, die Dokumentation und das Systemdesign entsprechend den strengen Kritiken der Community anzupassen. Allerdings enthält die zentrale Haupt-Erklärbeschreibung des Projekts weiterhin mehrere übertriebene Aussagen, die nicht korrigiert wurden, darunter Behauptungen wie „30-fache verlustfreie Komprimierung“ und „34% Abrufverbesserung“. Auch Vergleichsgrafiken mit anderen Wettbewerbern liefern dabei keinerlei Quellenangaben.

MemPalace-Quellcode steht vor mehreren Bugs

Mit immer mehr Downloads durch Entwickler tauchen auf der GitHub-Plattform zahlreiche Bug-Meldungen zum MemPalace-Quellcode auf.

Der Nutzer cktang88 listete mehrere schwerwiegende Mängel auf: darunter, dass der Kompressionsbefehl nicht funktioniert und zum Absturz des Systems führt, dass die Logik zur Berechnung der Anzahl der zusammengefassten Wörter fehlerhaft ist, dass die statistischen Daten zur Erkundung von Zimmern ungenau sind, sowie dass der Server bei jedem Aufruf sämtliche interpretierenden Daten in den Arbeitsspeicher lädt, was zu erheblichen Ressourcenproblemen führt.

Weitere genannte Probleme sind außerdem, dass das System die Namen von Familienangehörigen der Entwickler zwangsweise in die Standard-Konfigurationsdatei schreibt und dass bei der Abfrage des Status eine erzwungene Anzeigeobergrenze existiert, die 10.000 Datensätze ausgibt.

Zur Behebung dieser Probleme hat die Open-Source-Community bereits aktiv begonnen, sie zu reparieren. Der Nutzer adv3nt3 reichte mehrereReparaturanfragen ein, darunter Korrekturen der Statistikdaten zur Erkundung, das Entfernen der voreingestellten Namen von Familienangehörigen und das Hinauszögern der Initialisierungszeit für den Wissensgraphen. Später hat auch das Entwicklungsteam diese Fehler eingeräumt und löst die Probleme im Code Schritt für Schritt durch Zusammenarbeit mit der Community.

Milla Jovovich Vibe Coding ist cool, aber die Vermarktung nicht

Für das Projekt MemPalace zog ein Hacker-News-Nutzer darkhanakh ein Fazit: MemPalace vermittelt den Eindruck von OpenClaw, also dass die Ergebnisse von Benchmark-Tests künstlich so manipuliert werden, dass sie perfekt aussehen, und sie dann als eine Art bedeutenden Durchbruch vermarktet werden.

Er ist der Ansicht, dass die zugrunde liegende Technologie von MemPalace möglicherweise tatsächlich interessant sein könnte, aber wenn die Testmethode solche Mängel aufweist und dann zusätzlich damit wirbt „mit dem höchsten öffentlich erreichbaren Score“, sei das schlicht nicht sehr passend. „Aber, dass Milla Jovovich Vibe Coding spielt, ich finde, das ist immer noch ziemlich cool.“

Weiterführende Lektüre:
KI schreibt Programm und hat einen Fehler! App „Achtsamkeitsjäger“ mit App zur Haltbarkeitsware aus dem Supermarkt sorgt für Probleme in der Datensicherheit, der GPS-Tracker in der Wohnung ist komplett ungeschützt

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare