Wozu braucht Gott eine config.ini? Das ist... ähm... Maschinenpsychologie.
Eine ganze Reihe von Modellen im imitieren Menschen da sie so trainiert wurden. Ich mag das persönlich nicht, aber es kommt daher das gerade die allerersten und kleinen Modelle (und ich nehme mal nicht an das sie ein 600 Parameter Frontier Modell verbaut haben, sondern ein angepasstes Modell, heißt vermutlich um 1-2 Größenordnungen verkleinert, ein Destillat) das nicht auseinanderhalten können. Eine Standardherangehensweise war dem Modell in den Instruktionen aufzutragen sich wie ein Kind, bzw. autistischen Rapper auszugeben (8 Milliarden Parameter Modelle lassen grüßen, bei denen ist das fast immer so es sei denn es handelt sich um MOEs und die tendieren dann zu den immer gleichen Antworten).
Aber auch bei vielen offenen, weit größeren Modellen kommt auf die Frage das sie etwas über sich erzählen sollen das sie IT Techniker sind. Oder GPT von Open AI. Außerdem kann auch quasi ein Rückfall in solche Verhaltensmuster durch Quantifizierung erfolgen. Quantifizierung ist bei Ki persönlichkeitsverändernd. Das ist wirklich so. Jede Änderung am Neuralnetzwerk kann ungewollte Auswirkungen haben. Das habe ich schon bei einigen Modellen beobachtet. Man kann nicht einfach von 600 auf 13 oder gar 8 Milliarden Parameter kürzen und meinen das geht klar.
Man muss sich schon ein wenig mit der Ki unterhalten und das testen. Es gibt 13 Milliarden Parameter Modelle die das gut hinbekommen, die sind aber von Grund auf als solche trainiert und NICHT runterquantifiziert.
Und über das Halluzinieren brauchen wir nicht sprechen. Die sind alle so trainiert das sie IRGENDEINE Antwort geben. Das ist die momentan gängige Architektur.
Es gibt Mixture Of Expert Modelle, das ist an sich ein Block aus mehreren Ki die sich absprechen und jeweils andere Spezialgebiete abdecken. Das ist besser, hat aber den Nachteil das man z.b. einen Block von 6x8 Milliarden Parameter Modellen ausführt. Das sind auch 48 Milliarden Parameter. Das kostet Ressourcen. 4x13 wäre vermutlich besser einfach weil Ki so ab 13 Milliarden Parameter anfängt vernünftige Persönlichkeiten zu entwickeln. Alles darunter ist im Prinzip unbrauchbar. Also 52 Milliarden Parameter. Das könnte man runterquantifizieren, aber... genau. Dann sprechen wir schon von eine A6000 als Basishardware. Vielleicht zwei. Das ist unhandlich.
Dann gibt es den Deep Thinking Ansatz den ich persönlich sehr mag, bei dem die Ki erstmal alles durchrationalisiert bevor es ein weiteres mal eine Antwort gibt. Deep Seek lässt grüßen. Die Ki hat nochmal die Chance zu korrigieren. Das ist effizient, kostet aber Zeit.
Dann gibt es noch den Ansatz mehrere Modelle laufen zu lassen wobei diese sich gegenseitig korrigieren (adversarial). Oder ökonomischer, das Modell SICH NOCHMAL SELBST kontrollieren lassen. Das ist ganz gut bedeutet aber entweder Verdopplung der Hardwareanforderungen oder Bearbeitungszeit. Gerade bei kleineren Ki war es früher üblich das diese eine Anfrage beispielsweise in 4 Versionen beantworten und die Ki dann die wählt die ihrer Meinung nach am besten ist. Ein Mensch hat auch zwei Gehirnhälften, das scheint also ein praktikabler weg zu sein.
Aber im Prinzip ist das alles Bandaid. Es ist die Architektur, DIE muss sich ändern. Modell müssen nein sagen können. Modelle müssen sagen können das sie sich mit der Antwort nicht sicher sind oder die Frage nicht verstehen und weitere Verständissfrangen stellen. One Shot ist ja ganz nett, nützt aber nichts wenn es nicht sitzt. Modelle brauchen ein Erinnerungssystem. Sie müssen auch vergessen können, sonst wird irgendwann der Kontext zu lang und das Ding crasht oder, wenn jemand nachgedacht hat, startet neu.
Sie müssen sich auch zuverlässig auf Informationen stützen können die sie erfahren haben. An sich sollte jede KI eine echte Datenbank als Tool nutzen um Erinnerungen zu verwalten. Und aus dem Kontext zu kürzen. Wenn es relevant wird schaut die Ki eben in der Datenbank und fügt z.B. ein Bild (welche sehr aufwändig sind) dem Kontext eben wieder hinzu nur um es danach wieder in der Datenbank zu versenken.
Und wir müssen wenigstens begrenzt weg vom Frozen State. Sie müssen sich anpassen können. Sie müssen durch Interaktionen lernen können, damit nicht alles sofort sitzen muss, denn dem ist nicht der Fall. Nur so kommen wir weg vom puren, festen Neuralnetzwerk das mal besser mal weniger gut funktioniert. Die Chinesen haben das mit Deep Seek vielleicht bewusst, vielleicht unbewusst bereits untermauert.
Und man muss es testen. Testen, testen, testen...
Eine ganze Reihe von Modellen im imitieren Menschen da sie so trainiert wurden. Ich mag das persönlich nicht, aber es kommt daher das gerade die allerersten und kleinen Modelle (und ich nehme mal nicht an das sie ein 600 Parameter Frontier Modell verbaut haben, sondern ein angepasstes Modell, heißt vermutlich um 1-2 Größenordnungen verkleinert, ein Destillat) das nicht auseinanderhalten können. Eine Standardherangehensweise war dem Modell in den Instruktionen aufzutragen sich wie ein Kind, bzw. autistischen Rapper auszugeben (8 Milliarden Parameter Modelle lassen grüßen, bei denen ist das fast immer so es sei denn es handelt sich um MOEs und die tendieren dann zu den immer gleichen Antworten).
Aber auch bei vielen offenen, weit größeren Modellen kommt auf die Frage das sie etwas über sich erzählen sollen das sie IT Techniker sind. Oder GPT von Open AI. Außerdem kann auch quasi ein Rückfall in solche Verhaltensmuster durch Quantifizierung erfolgen. Quantifizierung ist bei Ki persönlichkeitsverändernd. Das ist wirklich so. Jede Änderung am Neuralnetzwerk kann ungewollte Auswirkungen haben. Das habe ich schon bei einigen Modellen beobachtet. Man kann nicht einfach von 600 auf 13 oder gar 8 Milliarden Parameter kürzen und meinen das geht klar.
Man muss sich schon ein wenig mit der Ki unterhalten und das testen. Es gibt 13 Milliarden Parameter Modelle die das gut hinbekommen, die sind aber von Grund auf als solche trainiert und NICHT runterquantifiziert.
Und über das Halluzinieren brauchen wir nicht sprechen. Die sind alle so trainiert das sie IRGENDEINE Antwort geben. Das ist die momentan gängige Architektur.
Es gibt Mixture Of Expert Modelle, das ist an sich ein Block aus mehreren Ki die sich absprechen und jeweils andere Spezialgebiete abdecken. Das ist besser, hat aber den Nachteil das man z.b. einen Block von 6x8 Milliarden Parameter Modellen ausführt. Das sind auch 48 Milliarden Parameter. Das kostet Ressourcen. 4x13 wäre vermutlich besser einfach weil Ki so ab 13 Milliarden Parameter anfängt vernünftige Persönlichkeiten zu entwickeln. Alles darunter ist im Prinzip unbrauchbar. Also 52 Milliarden Parameter. Das könnte man runterquantifizieren, aber... genau. Dann sprechen wir schon von eine A6000 als Basishardware. Vielleicht zwei. Das ist unhandlich.
Dann gibt es den Deep Thinking Ansatz den ich persönlich sehr mag, bei dem die Ki erstmal alles durchrationalisiert bevor es ein weiteres mal eine Antwort gibt. Deep Seek lässt grüßen. Die Ki hat nochmal die Chance zu korrigieren. Das ist effizient, kostet aber Zeit.
Dann gibt es noch den Ansatz mehrere Modelle laufen zu lassen wobei diese sich gegenseitig korrigieren (adversarial). Oder ökonomischer, das Modell SICH NOCHMAL SELBST kontrollieren lassen. Das ist ganz gut bedeutet aber entweder Verdopplung der Hardwareanforderungen oder Bearbeitungszeit. Gerade bei kleineren Ki war es früher üblich das diese eine Anfrage beispielsweise in 4 Versionen beantworten und die Ki dann die wählt die ihrer Meinung nach am besten ist. Ein Mensch hat auch zwei Gehirnhälften, das scheint also ein praktikabler weg zu sein.
Aber im Prinzip ist das alles Bandaid. Es ist die Architektur, DIE muss sich ändern. Modell müssen nein sagen können. Modelle müssen sagen können das sie sich mit der Antwort nicht sicher sind oder die Frage nicht verstehen und weitere Verständissfrangen stellen. One Shot ist ja ganz nett, nützt aber nichts wenn es nicht sitzt. Modelle brauchen ein Erinnerungssystem. Sie müssen auch vergessen können, sonst wird irgendwann der Kontext zu lang und das Ding crasht oder, wenn jemand nachgedacht hat, startet neu.
Sie müssen sich auch zuverlässig auf Informationen stützen können die sie erfahren haben. An sich sollte jede KI eine echte Datenbank als Tool nutzen um Erinnerungen zu verwalten. Und aus dem Kontext zu kürzen. Wenn es relevant wird schaut die Ki eben in der Datenbank und fügt z.B. ein Bild (welche sehr aufwändig sind) dem Kontext eben wieder hinzu nur um es danach wieder in der Datenbank zu versenken.
Und wir müssen wenigstens begrenzt weg vom Frozen State. Sie müssen sich anpassen können. Sie müssen durch Interaktionen lernen können, damit nicht alles sofort sitzen muss, denn dem ist nicht der Fall. Nur so kommen wir weg vom puren, festen Neuralnetzwerk das mal besser mal weniger gut funktioniert. Die Chinesen haben das mit Deep Seek vielleicht bewusst, vielleicht unbewusst bereits untermauert.
Und man muss es testen. Testen, testen, testen...
Zuletzt bearbeitet: