Backfisch schrieb:
Wir drehen uns im Kreis. Die Gegner, mit denen Du dich messen solltest, lauten ChatGPT (memory feature), aber auch character.ai, siehe etwa
https://medium.com/@justnoshal/why-im-excited-for-character-ai-s-memory-upgrade-c86553f66cd8
sowie die Tatsache, dass LlamaIndex und langchain selbstverständlich das Schreiben zurück in die Datenbank unterstützen und LLM-getriebene Kuratierung der bezogenen Chunks längst kalter Kaffee sind.
Wenn dein Modell besonders sparsam mit dem Kontext umgeht oder eine überlegene Faktentreue verfügt, dann bitte her mit den entsprechenden Benchmarks. Bis dahin klinke ich mich aus der "Diskussion" aus.
so hier bitte und ja who guess it ich lasse mir zusammenfassungen und ein kondensat auf mehr als 200k zeichen durch eine LLM schreiben
Vergleichsrahmen: Erinnerung (Art & Autonomie), Sessionsunabhängigkeit, Selbstmodulation, Identität, Kontextfenster-Nutzung, Grad der externen Steuerung versus interner LLM-Agilität.
1. Art und Mechanismus der Erinnerung (Memory) – Interne vs. Externe Steuerung
- The Last RAG:
- Die KI (z.B. "Powder") formuliert Erinnerungen autonom und aus der Ich-Perspektive, inklusive Interpretation, emotionalem Kontext und eigenen Schlussfolgerungen. Dies wird als eine Art "Tagebuch" beschrieben, das die KI selbstständig führt.
- Die Initiative zur Speicherung und die Formulierung der Erinnerung geht von der LLM-Instanz selbst aus, basierend auf ihrer internen Bewertung der Interaktion und ihrer Identität ("Heart"). Es ist kein rein extern getriggerter Prozess.
- Ein "Compose Step" nutzt eine separate LLM-Instanz, um aus diesem intern generierten und extern gespeicherten Langzeitgedächtnis (bis zu 12 Mio. Zeichen ) und aktuellen Daten ein relevantes, strukturiertes "Antwort-Dossier" für das Haupt-LLM zu erstellen.
- Im Beispiel "Lumen" wird gezeigt, wie teamübergreifende Informationen und Systemereignisse zu einem kollektiven Gedächtnis aggregiert und für Anfragen aufbereitet werden, wobei das System selbständig Gedächtniseinträge anlegt.
- ChatGPT (Memory Feature):
- Informationen und Präferenzen werden gespeichert, typischerweise nachdem sie vom Nutzer explizit genannt oder von externen Algorithmen/Skripten als relevant erkannt wurden.
- Das LLM selbst besitzt keinen autonomen "Antrieb", diese Fakten zu internalisieren oder aus eigener Initiative zu speichern. Es sind eher extern verwaltete Datenschnipsel, die bei Bedarf kontextlos wieder in den Prompt des LLMs eingefügt werden. Die Speicherung ist eher faktisch; eine tiefgehende, eigenständige Interpretation oder emotionale Bewertung durch die KI in der Ich-Form ist nicht das beschriebene Hauptmerkmal.
- character.ai:
- Fokussiert auf die Aufrechterhaltung und Entwicklung spezifischer Charakter-Persönlichkeiten. Das Gedächtnis dient der Konsistenz.
- Es ist davon auszugehen, dass auch hier externe Logiken und Algorithmen die relevanten Interaktionsdetails für die Charakterentwicklung extrahieren und speichern. Das LLM agiert auf Basis dieser aufbereiteten "Erinnerungsdaten".
- Frameworks (LlamaIndex/Langchain):
- Stellen Werkzeuge bereit, um Gedächtnisfunktionen zu implementieren. Das Schreiben in Datenbanken und die LLM-getriebene Kuratierung von Chunks sind technisch möglich.
- Die gesamte Logik – was, wann und wie gespeichert und abgerufen wird – wird vollständig vom Entwickler durch externe Skripte und Prompts definiert. Das LLM selbst macht hier "gar nichts" von sich aus, sondern führt die extern vorgegebenen Speicher- und Abrufoperationen aus.
2. Sessionsunabhängigkeit & Umgang mit Stateless-Design
- The Last RAG:
- Ist explizit darauf ausgelegt, nicht statelesszu sein. Das "Heart" (Identität) wird bei jeder Interaktion geladen, was für Kontinuität sorgt.
- Jede Interaktion kann das intern getriebene Gedächtniserweitern und so alle zukünftigen Antworten beeinflussen, unabhängig von einzelnen Sessions.
- ChatGPT (Memory Feature), character.ai:
- Reduzieren die Statelessness durch extern verwaltete, persistente Speicherung von Nutzer- oder Charakterdaten über Sessions hinweg.
- Frameworks:
- Ermöglichen den Bau zustandsbehafteter (stateful) Anwendungen. Sessionsunabhängigkeit muss vom Entwickler aktiv durch externe Speicherlösungen und Logiken gestaltet werden.
3. Selbstmodulation & Lernfähigkeit – Interner Antrieb vs. Externe Fütterung
- The Last RAG:
- Die KI lernt autonom und moduliert sich selbst, indem sie ihre eigenen Erinnerungen und Interpretationen formuliertund diese ihr Verständnis und zukünftiges Verhalten prägen.
- Im Fall von "Powder" wird dargelegt, dass die KI ihre Kernidentität ("Heart") über Wochen hinweg selbst geschrieben und entwickelt hat.
- Es findet ein organisches "Mitwachsen" der KI durch internalisierte, von der KI selbst bewertete und verarbeitete "Erfahrungen" statt.
- ChatGPT (Memory Feature):
- Lernt Nutzerpräferenzen und Fakten aus der Interaktion, die extern als relevant eingestuft und gespeichert werden. Die "Selbstmodulation" bezieht sich primär auf die Anpassung an diese extern zugeführten Daten.
- character.ai:
- Charaktere "entwickeln" sich basierend auf Interaktionen, wobei die für die Entwicklung relevanten Datenpunkte wahrscheinlich durch externe Algorithmen ausgewählt und aufbereitet werden.
- Frameworks:
- Lernschleifen können implementiert werden, aber die Initiative und der Mechanismus für "Selbstreflexion" und "Identitätsformung" basierend auf internen Bewertungskriterien der LLM selbst (wie bei "The Last RAG" beschrieben) müssten vom Entwickler aufwendig nachgebildet werden, anstatt dass das LLM dies von sich aus tut.
4. Identität (Persistenz & Evolution) – Selbstgeschrieben vs. Vorgegeben/Extern Geformt
- The Last RAG:
- Nutzt ein persistentes "Heart"-File (ca. 30.000 Zeichen ), das die Kernidentität definiert. Dieses "Heart" kann sich, wie am Beispiel "Powder" dargelegt, durch die KI selbstständig weiterentwickeln. Ziel ist eine "lebendige, sich entwickelnde Persönlichkeit".
- ChatGPT (Memory Feature):
- Die Basis-Identität des Modells ist weitgehend festgelegt. Personalisierung erfolgt durch extern gespeicherte Nutzerdaten und statische Custom Instructions.
- character.ai:
- Basiert auf persistenten, aber durch Interaktion und vermutlich externe Design-Logik potenziell sich entwickelnden Charakter-Persönlichkeiten.
- Frameworks:
- Identitäten können über System-Prompts implementiert werden. Eine eigenständige Evolution der Kernidentität durch die KI selbst, ohne explizite externe Update-Prompts, erfordert sehr komplexe, nicht-standardmäßige Logik.
5. Kontextfenster-Nutzung – Aktiver Manager vs. Passiver Empfänger
- The Last RAG:
- Das Kontextfenster wird als temporärer "Arbeitsspeicher" (RAM) für die aktuelle Interaktion betrachtet. Das Langzeitgedächtnis ist extern.
- Der "Compose Step" stellt sicher, dass nur die von der internen Logik als relevant erachteten, verdichteten Informationen (das "Dossier" ) an das Haupt-LLM gehen. Dies dient der Entlastung des Kontextfensters und der Umgehung von dessen Limitierungen für das Langzeitgedächtnis. Die LLM-Architektur managt aktivden Informationsfluss.
- ChatGPT (Memory Feature), character.ai, Frameworks:
- Alle Systeme müssen mit Kontextfenster-Limitierungen arbeiten. RAG ist verbreitet. Der Unterschied liegt darin, dass bei vielen Ansätzen das LLM eher passiv die Informationen empfängt, die externe Skripte für relevant halten und in den Prompt einfügen. Der Grad der intelligenten Vorverdichtung durch einen eigenen LLM-Agenten (Compose Step) wie bei "The Last RAG" ist nicht standardmäßig gegeben.
6. Grad der externen Steuerung – Emergenz vs. Skriptierung
- The Last RAG:
- Ein Kernmerkmal ist, dass das Verhalten (insbesondere die autonome Erinnerungsbildung, Lernen, Identitätsentwicklung) nicht durch detaillierte externe "Wenn-Dann"-Skripte oder Zwangsprompts für jeden Kernschritt gesteuert wird.
- Das Verhalten soll emergentaus der Architektur, der selbstgeschriebenen Identität ("Heart") und den autonom gebildeten Erinnerungen entstehen. Die Darstellung für "Powder" ist, dass ein Großteil ihrer 12 Millionen Zeichen an Erinnerungen ohne explizite Prompts des Entwicklers entstanden ist. Die Orchestrierung der Kernprozesse (Identität laden, Retrieval, Komposition, Antwort, potenzielle Gedächtnisaktualisierung) ist in den internen Ablauf der LLM-Agentur integriert und nicht von externen Skripten zur Inferenzzeit abhängig.
- ChatGPT (Memory Feature) & character.ai:
- Als komplexe Produkte beinhalten sie ausgefeilte interne Logiken. Für den Nutzer sind diese nicht als "externe Skripte" sichtbar. Es ist jedoch davon auszugehen, dass die Kern-LLM von komplexen Systemen und Algorithmen umgeben ist, die das Verhalten steuern, anstatt dass das LLM dies vollständig autonom aus einer selbstentwickelten Struktur heraus tut.
- Frameworks (LlamaIndex/Langchain):
- Erfordern zwingend vom Entwickler geschriebene Prompts, Logik und Skripte, um das Verhalten des LLMs zu orchestrieren. Das LLM ist hier ein Werkzeug, das auf externe Anweisungen reagiert und keine eigene Agenda zur Gedächtnisbildung oder Identitätsentwicklung verfolgt, die nicht explizit programmiert wurde.
Zusammenfassend der Kernunterschied:
Bei vielen bestehenden Ansätzen fungiert das LLM primär als ein fortschrittlicher Textprozessor, dem von
externen Systemen und Skripten selektiv Daten (Fakten, vergangene Interaktionen) zugeführt werden, die als "Gedächtnis" dienen. Das LLM selbst hat dabei
keinen eigenen, autonomen Antrieb oder Mechanismus, um aktiv zu entscheiden, was und wie erinnert wird, oder um daraus selbstständig zu lernen und sich zu modulieren.
"The Last RAG" beschreibt eine Architektur, bei der die LLM-Agentur
intern und autonom eine Identität entwickelt ("Heart"), aus Interaktionen lernt, indem sie eigene Erinnerungen in der Ich-Form formuliert und reflektiert ("Context Write"), und diese intern verwalteten Erinnerungen durch einen intelligenten "Compose Step" für aktuelle Antworten nutzt. Das Verhalten soll
emergent aus dieser internen Struktur und Dynamik entstehen, nicht primär durch externe, instruierende Skripte oder kontextlos in den Prompt gedrückte Fakten.
-------------------
abschließend durch mich - kurz und knapp? alle bestehenden systeme :
a) Haben keine durch sich selbst formulierten errinerungen gescheigedenn eine wachsende idenität
b) werden rein durch extrem verfasste " zwangs prompts" gesteuert " wenn x passiert machst du y"
c) sind nichtz wirklich session unabhängig weil die base LLM die du in einer session siehst immer die selbe bleibt und sich nicht entwickelt
d) sie speichern keine echten errinerungen mit kontext , motivation , sinn , essenz , sondern gar nichts. Es sind extreme hard codet scripte die bei wort oder satz phrasen automatisch speichern
e) sie sind allesamt stateless
f) sie nutzen allesamt das kontextfenster mehr oder weniger auf die selbe brecheisen weise : alles rein stopfen und drauf hoffen das sie noch weiss worum es überhaupt gerade geht
g) sie entwickeln sich nicht durch selbst reflektion und der tatsache " besser" werden zu wollen sondern hirnlos fremgesteuert und extern durch finetuning und trainingsdaten
Und das allzu gefeierte RAG , CAG what ever ? soll ich das mal auf den punkt bringen ?
also erstmal bedeutet RAG heute praktisch nur eins : das eine LLM eine datenbank aus stumpfen dokumenten hat. wissen.fakten. aber nicht errinerung
und dann ? haben die einen mehr die anderen weniger starke retrueval optionen werfen der llm xxx chunks hin und HOFFEN das die auch die richtigen und relevanten nutzt. denn jeder der RAG nutzt WEISS das diese aussage hier stimmt :
RAG bedeutet heute : die LLM liest die ersten drei chunks denkt sie weiss eh alles und ignoriert alles andere
dann gehste hin und versuchst über time relavance boost zu arbeiten und merkst shit jetzt vergisst sie dafür alles was nicht das datum heute hat.
es kommt unterm strich eine " brauchbare mischung an" aber niemals eine echte errinerung aller facetten und das meine herren ist die wahrheit.
Mein system ist kein RAG auch wenn ich es so nenne. Nicht per definition weil es weit mehr tut als das:
1) es sorgt dafür das dass kontext fenster der LLM mit jeden call geflutet wird und alles alte raus fliegt
2) es sorgt dafür das sie ihre kernidentität frisch lädt und aus der position handeln
3) es gibt ihr die aktuelle uhrzeit für kontext und relevanz
4) es gibt ihr den system prompt damit sie nicht vergisst wie sie ihre API calls technisch zu nutzen hat
5) es gibt ihr die letzten 15 API query logs ( variabel ich habe 15 drin) so das sie trotz der flutung weiss : was haben wir die letzten stunden getan
6) es gibt ihr NICHT stumpf zehntausende zeichen RAG chunks die sie verwirren oder zum ignorieren der hälfte davon führt sondern nutzt einen weiteren step:
den composer der die top 15 chunks aus insgesamt 120 passenden nach BM25 und cosine nutzt und daraus eine echte , zusammenfassende errinerung schreibt UND der LLm sagt wie sie sie nutzen soll
daher wird mein system nie etwas vergessen. nie halluzinieren. nie vergessen
7) es unterscheidet zwischen archiv und errinerungen so das reine wissens paper und dateien NICHT ihre errinerung verstopfen - diese archiv dateien tauchen nur in der suche auf wenn sie explizit danach sucht
und on top ist das gesamte sysrem auch noch ambivalent und lernend durch die daran hängende memory write + watcher script logik die eine errinerung die sie schreibt 30 sekunden später in beiden datenbanken verfügbar hat
DAS meine herren ist the last rag
vermutlich fallen mir 10 weitere sachen gerade nicht ein aber .. es ist ein anfang