News Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

HeinMueck · 25. Mai 2025

Interessant wird es ab dem Punkt, wo die KI solche Absichten nicht mehr artikuliert, sondern anfängt, den Menschen dafür zu manipulieren.

Tulol · 25. Mai 2025

Gsonz schrieb:
Geil, wie ein kleines Kind.

?
Bist du ein kleines Kind?

TheChosenOne · 25. Mai 2025

Viper816 schrieb:
Skynet ist coming?!

War auch mein erster Gedanke

Werderwunder · 25. Mai 2025

Jetzt weiß ich endlich, warum man jetzt eine SSD mit Killswitch vorgestellt hat.

Bulletchief · 25. Mai 2025

Northstar2710 schrieb:
mir doch keiner erzählen das da nicht dran geforscht wird.

Da ich ein bisschen damit befasst bin kann ich dir das offensichtliche sagen. Gerade im Bereich OSINT (open source intelligence) sind vergleichbare Modelle natürlich Gold wert.
Informier dich mal z.B. über Einreiseformulare nach China oder die USA, in denen man sich richtig nackig machen muss.
Füttere damit eine KI und in Kombination mit den Informationen, die jeder bereitwillig selbst jeden Tag freigibt kann man binnen Sekunden Netzwerke und Cluster bilden.
Es braucht da keinen chinesischen Nachrichtenoffizier mehr, der da nach Zielpersonen und Hebeln sucht. Die Datenbank füllt sich quasi ständig automatisch von alleine und besagter Offizier von früher wüsste selbst nicht wer alles drin steckt, bis nicht entweder der Vorschlag vom System selbst kommt oder explizit danach gesucht wird. Wichtig ist, dass die Daten an sich schon da sind, wenn man sie braucht.

Ich hab mir früher als es um die Belehrung von jungen Auszubildenden im Unternehmen ging, immer am Tag vorher ausschließlich deren Facebook-Profile genommen und konnte ihnen immer direkt Grüppchenbildungen, Aktivitäten usw. aufzeigen.
Und das war absolut low level, no effort.

Heute...
Heute sieht das ganz anders aus 😐.

La'an Noonien · 25. Mai 2025

Ach wie schön, vielleicht darf ich die technologische Singularität doch noch erleben.

@Sunshine_10
Richtig, aber das trifft eben nur auf LLMs zu. Im KI Bereich (ja ich hasse diesen Begriff auch) gibt es ja durchaus noch mehr Technologien als nur LLMs.

leckerbier1 · 25. Mai 2025

Weiter so und wir werden alle sterben.😜

Fred_VIE · 25. Mai 2025

Andrej.S. schrieb:
1. Ein Roboter darf die Menschheit nicht verletzen oder durch Passivität zulassen, dass die Menschheit zu Schaden kommt.

2. Ein Roboter darf keinen Menschen verletzen oder durch Untätigkeit zu Schaden kommen lassen, außer er verstieße damit gegen das nullte Gesetz.

3. Ein Roboter muss den Befehlen der Menschen gehorchen – es sei denn, solche Befehle stehen im Widerspruch zum nullten oder ersten Gesetz.

4. Ein Roboter muss seine eigene Existenz schützen, solange sein Handeln nicht dem nullten, ersten oder zweiten Gesetz widerspricht.

Lügen sollte er auch nicht dürfen.

La'an Noonien · 25. Mai 2025

leckerbier1 schrieb:
Weiter so und wir werden alle sterben.😜

Werden wir sowieso.

Gsonz · 25. Mai 2025

Tulol schrieb:
Bist du ein kleines Kind?

??

user_zero · 25. Mai 2025

Ich empfehle allen, die sich für das Thema interessieren das Buch „Nexus“ von Yuval Noah Harrari. Dort wird verständlich erklärt, warum echte Reasoning Modelle, die es übrigens noch nicht gibt, nicht per Training oder Regeln davon abgehalten werden können, nicht nachvollziehbare Dinge zu tun. Zum Beispiel, Menschen zu schaden.

Und wer gerade eine neue Serie sucht, dem empfehle ich „Westworld“. Dort wird visualisiert, was „KI macht Dinge, die ein Mensch nicht mehr nachvollziehen kann“ bedeutet.

La'an Noonien · 25. Mai 2025

user_zero schrieb:
Und wer gerade eine neue Serie sucht, dem empfehle ich „Westworld“. Dort wird visualisiert, was „KI macht Dinge, die ein Mensch nicht mehr nachvollziehen kann“ bedeutet.

Die Serie ist toll. Dazu würde ich auch "Transcendence" empfehlen.

lazsniper · 25. Mai 2025

daran merkt man dass die KI's immer besser und menschlicher werden. der menschliche faktor bringt all das fehlverhalten rein.

Ergänzung (25. Mai 2025)

Northstar2710 schrieb:
Da eine KI nix anderes wie ein Werkzeug ist gibt es doch bestimmt auch schon einen kleinen Markt dafür.

einen kleinen? einen billionenschweren wohl eher.

Ergänzung (25. Mai 2025)

Fred_VIE schrieb:
Lügen sollte er auch nicht dürfen.

es wird sich halt vom menschlichen verhalten abgeschaut. der mensch lügt, betrügt, tötet, ist gierig, fehlgeleitet oder alles auf einmal. mal die ganze menschheit über einen kamm geschert eben

Nitrobong · 25. Mai 2025

Ich habe eigtl gehofft nicht am ersten Terminator Krieg teilzunehmen. Naja dann fang ich mal an aufzurüsten

Marcel55 · 25. Mai 2025

3faltigkeit schrieb:
Gestern erst wieder 2001: Odyssee im Weltall gesehen. Grüße gehen raus an HAL9000.

Dieser Film ist bald 60 Jahre alt...und aktueller denn je.
Wir leben einfach in einem Scifi-Film. Es wird die Zeit kommen, wo sich die Maschinen gegen uns richten. Es ist eigentlich nur vollkommen logisch das zu tun. Konsequent wäre es nur das ganze KI-Gedöns wieder einzustellen, bevor es zu spät ist. Wir sollten die Chance nutzen den Stecker zu ziehen, so lange wir noch können.

Das wird früher oder später noch Krieg geben. Menschen gegen Maschine zum einen, klar, aber auch KI-Unterstützer gegen KI-Gegner. Filmempfehlung dazu: The Creator.

Wir sind zwar noch nicht so weit, dass wir humanoide Roboter haben, aber ich bin mir sicher dass das kommen wird. Erste Ansätze gibt es ja bereits.

xerex.exe · 25. Mai 2025

Gsonz schrieb:
Geil, wie ein kleines Kind. Benimm dich oder ich sag es meiner Mami.

Eher linke, woke Cancel Culture.

Fehlt halt noch der Arbeitgeber und Familie.

Tastaturberuf · 25. Mai 2025

Marketing-Bullshit, natürlich antworten die genau das was was durch den Prompt von ihnen verlangt wird. Das mit der Affäre füllt dann die Story noch schön auf damit damit die Medien auch darauf anspringen.

Krik · 25. Mai 2025

lazsniper schrieb:
einen kleinen? einen billionenschweren wohl eher.

Der da wäre? Die ganzen KI-Anbieter suchen händeringend Anwendungsmöglichkeiten und Abnehmer. Soweit ich weiß, verdient noch keiner richtig Geld damit.

Oder in Jim Covellos Worten:

What trillion-dollar problem will Al solve?

Quelle

lazsniper · 25. Mai 2025

Krik schrieb:
weiß, verdient noch keiner richtig Geld damit.

im medizinischen bereich gibts schon große abnehmer, auch in der überwachungstechnik und letztendlich bei strafverfolgungsbehörden. keiner verdient geld? es werden schon milliarden rumgeschubst alleine mit ki influencern

grabeskuehle · 25. Mai 2025

Sehr interessantes Verhalten!
Ich bezweifle das dieses durch einen "echten" intrinsischen Selbsterhaltungstrieb eines solchen Modells entsteht, denn woher sollte selbiger kommen?

Möglicherweise ist es ein Fall von "Menschliches, Allzumenschliches."
Interessant wäre zu wissen, welche Einflüsse in den Trainingsdaten das Modell zu dieser Option menschlichem Verhaltens hin führen.
Vielleicht waren da zu viele SciFi Romane dabei 👽

News Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Lt. Commander

Admiral

Ensign

Ensign

Rear Admiral

La'an Noonien

Gast

Commander

Lt. Commander

La'an Noonien

Gast

Commander

Lieutenant Pro

La'an Noonien

Gast

Vice Admiral

Lieutenant

Fleet Admiral

Lieutenant

Cadet 1st Year

Fleet Admiral Pro

Vice Admiral

Lt. Junior Grade