Wie kann man Fake-Daten vermeiden?

zweitnick · 6. Juni 2025

Hallo,

ich brauche etwas Input, welche Prompts ich nutzen soll, um die Erzeugug von Fake-Daten zu vermeiden. Ein konkretes Beispiel: Ich habe eine Website, die Informationen enthält, die ich analysieren muss (wie Zeiten, Namen usw.). Da es keine Exportfunktion für die Daten gibt, habe ich das HTML gespeichert und sowohl Claude Sonet 4.0 als auch ChatGPT 4.1 (über Perplexity Pro) gebeten, den Code zu analysieren und die Daten so zu extrahieren, dass ich sie in Excel kopieren/einfügen kann. Ich musste die Datei zuerst in .txt umbenennen, da .html nicht akzeptiert wurde, aber OK..

Jetzt zu meinem Problem: Beim Überprüfen der Daten habe ich festgestellt, dass beide Modelle gefälschte Einträge generiert haben!

Mir ist bewusst, dass KI-Modelle dazu neigen, beim Recherchieren zu „lügen“, aber ich bin erstaunt, dass das sogar passiert, wenn sie vorhandene Daten analysieren sollen. Das macht das Ganze völlig unbrauchbar.

Gibt es eine Möglichkeit, ein solches Verhalten durch spezielle Prompts zu vermeiden? Ist eines der Modelle besser für die Datenanalyse /-Aufbereitung geeignet als andere?

Danke!

Rickmer · 6. Juni 2025

zweitnick schrieb:
Gibt es eine Möglichkeit, ein solches Verhalten durch spezielle Prompts zu vermeiden?

Meines Wissens nach: nein. Keine Chance.

Man kann es vielleicht minimal reduzieren durch irgendeinen cleveren Systemprompt oder so, aber du wirst es niemals vollständig eliminieren können.

Wenn die Zahlen wichtig sind, wirst du sie immer alle nochmal prüfen müssen.

Wo bin ich hier · 6. Juni 2025

zweitnick schrieb:
Claude Sonet 4.0 als auch ChatGPT 4.1 (über Perplexity Pro) gebeten, den Code zu analysieren und die Daten so zu extrahieren, dass ich sie in Excel kopieren/einfügen kann

Du kannst die KI bitten dir ein Skript zu schreiben, mit dem du selbst einfach die Daten aus der HTML extrahieren kannst.

Tornhoof · 6. Juni 2025

Es gibt keine Möglichkeit das zu verhindern, es wird ggf besser mit Modellen wie o3 und ähnliches. Die machen aber teilweise nichts anderes als die gleiche Frage x mal zu stellen und die Schnittmenge zu nehmen und dann mit der Schnittmenge die Frage rückwärts zu stellen und das so lange, bis da "kein" Unterschied mehr ist.

zweitnick · 6. Juni 2025

Danke für euer Feedback.
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann

Limmbo · 6. Juni 2025

Naja du kannst dir mit ki aber die Funktionen selbst schreiben lassen, die die Daten dann exportieren und analysieren. Würde die Datensätze niemals einfach so der ki zum bearbeiten geben.

Arboster · 6. Juni 2025

zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann

In Unternehmen kommen Expertensysteme zum Einsatz.
Schon jetzt werden z. B. bei Autoversicherungen Schadensmeldungen automatisiert bearbeitet.
Solche Systeme kommen immer mehr zum Einsatz und ja, die kosten langfristig Arbeitsplätze.

JumpingCat · 6. Juni 2025

Was hast du wirklich vor?

Geht es dir um Zuverlässigkeit von KI Modellen?

Oder um Datenextraktion? Dann guck mal hier: https://docling-project.github.io/docling/

Ergänzung (6. Juni 2025)

zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann

Quatsch. In Unternehmen hast du Zugriff auf die Rohdaten und nicht auf Kompilationen wie Webseiten, PDF Auszüge oder ähnliches Verunstaltetes.

zweitnick · 6. Juni 2025

JumpingCat schrieb:
Quatsch. In Unternehmen hast du Zugriff auf die Rohdaten und nicht auf Kompilationen wie Webseiten, PDF Auszüge oder ähnliches Verunstaltetes.

Ja und wer garantiert dir, dass die Modelle nicht auch bei den Rohdaten Fake-Daten einbauen?
So lange man nie sicher sein kann, dass das Ergebnis stimmt und man erts recht alles nochmal kontrollieren muss, ist das ganze unnütz

NJay · 6. Juni 2025

zweitnick schrieb:
Ja und wer garantiert dir, dass die Modelle nicht auch bei den Rohdaten Fake-Daten einbauen?

Nochmal: Weil du nicht die Daten der KI gibst und sagst „extrahiere X“, sondern „erstelle mir ein Script was X extrahiert“.

JumpingCat · 6. Juni 2025

zweitnick schrieb:
Ja und wer garantiert dir, dass die Modelle nicht auch bei den Rohdaten Fake-Daten einbauen?

Was sind denn Rohdaten deiner Meinung nach?

duAffentier · 6. Juni 2025

Die KI macht des, was Sie soll.
Entweder brauch man für jeden Anwendungsfall eine Software oder man läst es.
KI ist aktuell wie ein Jugendlicher, Sie macht zwar was, aber naja...Ist nicht so weit.

Wer KI als Hilfe mag, brauch Tools. KI alleine als Tool wird nicht mehr helfen.

eine PDF mit 5 Seiten und eine PDF mit 100Seiten werden nicht gleich analysiert. Leider. Somit landet man bei speziellen Anwendungen oder eben guten Prozessen in der Firma.

Blackland · 3. September 2025

Kann man nicht vermeiden, das AI-System ist einfach noch nicht genau genug und hapert letztendlich an der Programmierung und dem quasi unbeschränkten Zugriff aller (auch falschen) Quell-/Rohdaten zum Anlernen.

Beispiel:

Auf futurezone.de wir ein Artikel über die Verwendung der TomTom AmiGo-App in Verbindung mit AndroidAuto (GoogleMaps) veröffentlicht - 02.09.2025 -, der von KI erstellt und natürlich fachlich von Autoren geprüft sein soll. Es geht um "Blitzerwarnung".

Es stellt sich bei eigener Recherche jedoch heraus, dass diese Funktion bereits Wochen vorher aus der App entfernt wurde.

Das Zusammenspiel Mensch/KI hat hier nicht funktioniert, oder aber die KI hat nicht korrekt "recherchiert", somit Fake-Antworten geliefert. Leider verlassen sich jedoch immer mehr Nutzer auf die gelieferten "Ergebnisse" ohne diese zu prüfen - schließlich sollte die Ausgabe ja stimmen. Oder doch nicht?

Ist natürlich ein Negativbeispiel, in vielen Bereichen funktioniert es halbwegs, keine Frage. Jedoch zu 100% darauf verlassen sollte man ausblenden und die "eigene KI" (Brain) besser nutzen.

Micha- · 3. September 2025

zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann

Vielleicht macht die KI in Summe immer noch weniger Fehler als die Menschen.

Keuleman · 3. September 2025

Für mich ist das mit der AI einfach wie mit Menschen auch, es geht um Ungenauigkeiten. Eine KI kann Fehler machen, oder halt auf alten Daten basiert was generieren, was nicht mehr dem aktuellen Stand entspricht. Also immer eine Redundanz einbauen (Daten sichern, bevor die KI drüber rödelt, gucken, ob die Ergebnisse sinnig sind und auch die aktuellsten Daten vorliegen).

Beispiel wäre ChatGPT und alte Datenbank, was Grafikkarten angeht: war glaube GPT4, der kannte die RTX 5er Generation noch nicht, als die längst draussen waren: Prüfung - kennt er nicht? - gebeten "guck mal nach, es gibt die 5er schon!" - bessere Ergebnisse.

Früher war alles immer sofort klar, heute immer "viele Lösungen"... einfach unschärfer geworden, aber ich finde, dass einem eine AI echt weiterhelfen kann, wenn man selber auch "mitlernt".

Suche

Wie kann man Fake-Daten vermeiden?

zweitnick

Lieutenant

Rickmer

Silent-Fanatiker Pro

Wo bin ich hier

Commander

Tornhoof

Captain

zweitnick

Lieutenant

Limmbo

Lt. Commander

Arboster

Commodore Pro

JumpingCat

Vice Admiral

zweitnick

Lieutenant

NJay

Vice Admiral Pro

JumpingCat

Vice Admiral

duAffentier

Admiral

Blackland

Rear Admiral

Micha-

Commodore

Keuleman

Lt. Junior Grade

Ähnliche Themen