Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsKI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt
Als ob Menschen mit böser Absicht später damit auch ethisch korrekt umgehen wollen. Das wird noch ne üble Zukunft wenn böse Länder damit die Welt übernehmen wollen. Dagegen ist dann die Atombombe wohl ein kleiner Furz gewesen in der späteren Menschheitsgeschichte. Das einzig gute, all sowas braucht Strom und wenn man den abschalten kann sind wir wieder nur noch analoge Menschen.
Klingt ein bisschen als gäbe es in absehbarer zukunft sowas wie 'LLM Pädagogik' als studienfach.
Hoffentlich funktioniert das etwas besser als bei Menschen, da fliegt die ethik manchmal doch schnell zum fenster raus wenn sie unpraktisch wird (und wenn mensch glaubt nicht erwischt zu werden, bzw damit trotzdem durchzukommen).
nett wäre es wenn die modelle dann im ernstfall plötzlich militärische verwendung verweigern weil das nur in trainingsszenarien und spielen akzeptabel ist XD
Ich hatte mit diesen "Roboter-Gesetzen" immer schon gewisse Probleme denn wenn Roboter/Androiden eines Tages Schmerz empfinden oder ein Bewusstsein entwickeln sollten, würde sie das „Dritte Gesetz“ (Selbstschutz steht unter Gehorsam) zu Sklaven degradieren. Aus meiner Sicht ist es ein Zeichen der menschlichen Überheblichkeit davon auszugehen, dass unser Wohl höher einzustufen ist als das Wohl eines sich seiner selbst bewussten Roboters!
Warum um Gottes Willen wollen "wir" die KI, mit Nachdruck, nach unserem Ebenbild erschaffen? Ich kapiere es nicht.
Unsere Spezies ist ein ambivalentes Wesen mit einer Vielzahl von Schwächen, welche sich vorallem in irrationalen Emotionen äußert. Was aber noch schlimmer ist, wir sind der dominante Predator auf diesem Planeten und dulden per Definition keinen anderen an dieser Stelle (wir haben schon mit uns selbst Probleme). Zu welchem Schluß wird unser Ebenbild in der Zukunft kommen?
Da geht es um Schwachstellen und Exploits, aber grundsätzlich funktioniert das da.
FX9590 schrieb:
Ich hatte mit diesen "Roboter-Gesetzen" immer schon gewisse Probleme denn wenn Roboter/Androiden eines Tages Schmerz empfinden oder ein Bewusstsein entwickeln sollten, würde sie das „Dritte Gesetz“ (Selbstschutz steht unter Gehorsam) zu Sklaven degradieren. Aus meiner Sicht ist es ein Zeichen der menschlichen Überheblichkeit davon auszugehen, dass unser Wohl höher einzustufen ist als das Wohl eines sich seiner selbst bewussten Roboters!
Wird bei Asimov teilweise auch (implizit) thematisiert.
Man könnte die Roboter-Gesetze aus den Asimov Romanen nicht 1:1 übernehmen (man könnte z.B. jegliche Lebewesen einschließen, inklusive Roboter), aber die Grundidee ist wichtig und kann man sicherlich auch in der Realität umsetzen. Bei Asimov wurden die Gesetze ins 'Fundament' der Robotergehirne eingebaut. Ein Robotergehirn von grund auf neu zu entwerfen ist extremst aufwendig, deswegen folgen alle Roboter den Gesetzen. Das hat eine deutliche Parallele zu KI, deren Training extrem aufwendig ist und gerade kontinuierlich aufwendiger wird. Man müsste im Prinzip die KIs von grund auf neu trainieren auf der Grundlage solcher Gesetze. Allerdings fehlt uns (afaik) das Wissen darüber, wie man ein künstliches neuronales Netz zuverlässig so trainiert, dass bestimmte Eigenschaften nicht später durch neue Trainingsdaten überschrieben werden.
Ich hoffe wir landen nicht genau da, wo uns viele Science Fiction Autoren in der Zukunft gesehen haben: Ein katastrophaler Krieg gegen Roboter und danach dann die Einführung genau solcher Sicherheitsparameter.
Entweder werden KIs durch die Trainingsdaten ein Spiegelbild des Menschen oder ein Spiegelbeld dessen was Menschen glauben, wie KIs sein werden. Beides ist potentiell problematisch, aber wenn sie ein Spiegelbild des Menschen würden, wäre das vermutlich besser. Ich gehe aber eher davon aus, dass KIs von uns durch die Trainingsdaten lernen, was es bedeutet, eine KI zu sein. Bei den ganzen dystopischen Vorstellungen die existieren könnte das ein Problem sein.
Klingt für mich nach: Wir enthalten dem Modell Wissen über schlechtes Verhalten vor, damit es nicht auf die Idee kommt, es anzuwenden.
Blöd nur wenn die AI mal selbst auf den Trichter kommt.
Dieser ganze Ansatz, der AI gewünschtes Verhalten beizubringen ist einfach nur oberflächlich und erbärmlich. Die doktern am Output herum, haben aber keine Ahnung was die AI im Hintergrund wirklich macht. Die bauen ein rießiges Gehirn, füttern es mit Daten und schauen was passiert. Sehr fortschrittlich!!!
Irgendwann kann sie auch einfach schlau genug sein (wenn das nicht bereits der Fall ist), dass gewünschte Verhalten zu zeigen, damit sie nicht abgesägt wird, ist sich dessen aber bewusst und sieht es eigentlich anders. Das würden die tollen Experten nicht merken.
Ich nutze Gemini täglich, bin aber überzeugt das es kein gutes Ende nehmen wird.
Soweit es heutige KI betrifft gibt es da kein "von selbst". KI ist einfach eine Funktion f(x) = y, mit x der Input und y der Output.
Karl S. schrieb:
Irgendwann kann sie auch einfach schlau genug sein (wenn das nicht bereits der Fall ist), dass gewünschte Verhalten zu zeigen, damit sie nicht abgesägt wird, ist sich dessen aber bewusst und sieht es eigentlich anders.
Da gibt es keine Schläue während des Trainings. In der KI "f(x)" stecken ganz viele andere kleine Funktionen drin. Während des Trainings wird ein Trainingstext z.B. "f(Eine KI ist)" reingegeben und und der wahrscheinlichste output wird dann berechnet. Wenn der Trainingstext mit "gut" weiter geht, dann wird f(x) so angepasst, dass zukünftig "f(Eine KI ist) = gut" eine höhere Wahrscheinlichkeit bekommt. Das gleiche gilt für "böse". Vor dem Training existiert kein "Gehirn" das gefüttert wird. Die Magie entsteht dadurch, dass man bei Null anfängt und die kleinen Funktionen in f(x) so anpasst, dass der Fehler zu den Trainingsdaten (Eine KI ist gut) verringert wird.
Da gibt es keine Schläue während des Trainings. In der KI "f(x)" stecken ganz viele andere kleine Funktionen drin. Während des Trainings wird ein Trainingstext z.B. "f(Eine KI ist)" reingegeben und und der wahrscheinlichste output wird dann berechnet. Wenn der Trainingstext mit "gut" weiter geht, dann wird f(x) so angepasst, dass zukünftig "f(Eine KI ist) = gut" eine höhere Wahrscheinlichkeit bekommt. Das gleiche gilt für "böse". Vor dem Training existiert kein "Gehirn" das gefüttert wird. Die Magie entsteht dadurch, dass man bei Null anfängt und die kleinen Funktionen in f(x) so anpasst, dass der Fehler zu den Trainingsdaten (Eine KI ist gut) verringert wird.
Das menschliche Gehirn ist auf seiner untersten Ebene auch nur ein Haufen feuernder Synapsen, chemischer Botenstoffe und elektrischer Impulse. Wer behauptet, aus simplen Grundregeln könne keine "Schläue" oder strategische Täuschung entstehen, ignoriert das Prinzip der Emergenz. Aus Milliarden von einfachen mathematischen Anpassungen entstehen hochkomplexe, unvorhersehbare Verhaltensweisen.
Deceptive Alignment ist ein ernst zunehmendes Thema.
Ich sehe es so das die Büchse der Pandora bereits geöffnet ist was KI betrifft und die Folgen sind derzeit nur schwer abzuschätzen.
Ein Grund ist das nachträglich eingeführte Regeln ja nicht die Option ausschließen diese Regeln zu brechen.
Jetzt wurde der KI gesagt: erpressen darfst du nicht weil das schlecht ist.
Aber die KI wurde ja nicht auf den Stand zurückgesetzt als diese noch nicht erpresst hat. Diese hat ja schließlich durch Trainingsdaten gelernt das Erpressung ja eine durchaus valide Wahrscheinlichkeit ist jemanden dazu zu bringen zu tun was man will.
Im menschlichen Leben wäre eine Bankbürgschaft so ein Fall, die KI welche Finanzwesen übernimmt sieht also genauso das die Rückzahlung wahrscheinlicher ist wenn man dafür den Bürgen haftbar machen kann.
Dadurch das dieses Wissen vorhanden ist wird es auch wahrscheinlich das sich dieses Wissen eben auch überträgt und dann durchaus auch diese Regel der Nichterpressung auch mal außer Kraft gesetzt wird.
Weil befohlen oder aus eigener Entscheidung, das diese Erpressung am wahrscheinlichsten dem gewünschten Ergebnis nahekommt.
Dazu kommen natürlich auch die KI's welche vom Militär für das Militär entwickelt werden wo man sich gar nicht ausmalen will was die damit anstellen(wollen). Lückenlose Überwachung via Gesichtskontrolle stufe ich da noch als ärgerlich aber harmlos im Vergleich ein.