Wie kann man Fake-Daten vermeiden?

zweitnick

Lieutenant
Registriert
Juli 2005
Beiträge
752
Hallo,

ich brauche etwas Input, welche Prompts ich nutzen soll, um die Erzeugug von Fake-Daten zu vermeiden. Ein konkretes Beispiel: Ich habe eine Website, die Informationen enthält, die ich analysieren muss (wie Zeiten, Namen usw.). Da es keine Exportfunktion für die Daten gibt, habe ich das HTML gespeichert und sowohl Claude Sonet 4.0 als auch ChatGPT 4.1 (über Perplexity Pro) gebeten, den Code zu analysieren und die Daten so zu extrahieren, dass ich sie in Excel kopieren/einfügen kann. Ich musste die Datei zuerst in .txt umbenennen, da .html nicht akzeptiert wurde, aber OK..

Jetzt zu meinem Problem: Beim Überprüfen der Daten habe ich festgestellt, dass beide Modelle gefälschte Einträge generiert haben!

Mir ist bewusst, dass KI-Modelle dazu neigen, beim Recherchieren zu „lügen“, aber ich bin erstaunt, dass das sogar passiert, wenn sie vorhandene Daten analysieren sollen. Das macht das Ganze völlig unbrauchbar.

Gibt es eine Möglichkeit, ein solches Verhalten durch spezielle Prompts zu vermeiden? Ist eines der Modelle besser für die Datenanalyse /-Aufbereitung geeignet als andere?

Danke!
 
zweitnick schrieb:
Gibt es eine Möglichkeit, ein solches Verhalten durch spezielle Prompts zu vermeiden?
Meines Wissens nach: nein. Keine Chance.

Man kann es vielleicht minimal reduzieren durch irgendeinen cleveren Systemprompt oder so, aber du wirst es niemals vollständig eliminieren können.

Wenn die Zahlen wichtig sind, wirst du sie immer alle nochmal prüfen müssen.
 
  • Gefällt mir
Reaktionen: Tornhoof
zweitnick schrieb:
Claude Sonet 4.0 als auch ChatGPT 4.1 (über Perplexity Pro) gebeten, den Code zu analysieren und die Daten so zu extrahieren, dass ich sie in Excel kopieren/einfügen kann
Du kannst die KI bitten dir ein Skript zu schreiben, mit dem du selbst einfach die Daten aus der HTML extrahieren kannst.
 
  • Gefällt mir
Reaktionen: rollmoped, CountSero, frames p. joule und 3 andere
Es gibt keine Möglichkeit das zu verhindern, es wird ggf besser mit Modellen wie o3 und ähnliches. Die machen aber teilweise nichts anderes als die gleiche Frage x mal zu stellen und die Schnittmenge zu nehmen und dann mit der Schnittmenge die Frage rückwärts zu stellen und das so lange, bis da "kein" Unterschied mehr ist.
 
Danke für euer Feedback.
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann
 
Naja du kannst dir mit ki aber die Funktionen selbst schreiben lassen, die die Daten dann exportieren und analysieren. Würde die Datensätze niemals einfach so der ki zum bearbeiten geben.
 
zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann
In Unternehmen kommen Expertensysteme zum Einsatz.
Schon jetzt werden z. B. bei Autoversicherungen Schadensmeldungen automatisiert bearbeitet.
Solche Systeme kommen immer mehr zum Einsatz und ja, die kosten langfristig Arbeitsplätze.
 
  • Gefällt mir
Reaktionen: CountSero
Was hast du wirklich vor?

Geht es dir um Zuverlässigkeit von KI Modellen?

Oder um Datenextraktion? Dann guck mal hier: https://docling-project.github.io/docling/
Ergänzung ()

zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann

Quatsch. In Unternehmen hast du Zugriff auf die Rohdaten und nicht auf Kompilationen wie Webseiten, PDF Auszüge oder ähnliches Verunstaltetes.
 
JumpingCat schrieb:
Quatsch. In Unternehmen hast du Zugriff auf die Rohdaten und nicht auf Kompilationen wie Webseiten, PDF Auszüge oder ähnliches Verunstaltetes.

Ja und wer garantiert dir, dass die Modelle nicht auch bei den Rohdaten Fake-Daten einbauen?
So lange man nie sicher sein kann, dass das Ergebnis stimmt und man erts recht alles nochmal kontrollieren muss, ist das ganze unnütz
 
zweitnick schrieb:
Ja und wer garantiert dir, dass die Modelle nicht auch bei den Rohdaten Fake-Daten einbauen?
Nochmal: Weil du nicht die Daten der KI gibst und sagst „extrahiere X“, sondern „erstelle mir ein Script was X extrahiert“.
 
  • Gefällt mir
Reaktionen: wesch2000, Limmbo und JumpingCat
Die KI macht des, was Sie soll.
Entweder brauch man für jeden Anwendungsfall eine Software oder man läst es.
KI ist aktuell wie ein Jugendlicher, Sie macht zwar was, aber naja...Ist nicht so weit.

Wer KI als Hilfe mag, brauch Tools. KI alleine als Tool wird nicht mehr helfen.

eine PDF mit 5 Seiten und eine PDF mit 100Seiten werden nicht gleich analysiert. Leider. Somit landet man bei speziellen Anwendungen oder eben guten Prozessen in der Firma.
 
Kann man nicht vermeiden, das AI-System ist einfach noch nicht genau genug und hapert letztendlich an der Programmierung und dem quasi unbeschränkten Zugriff aller (auch falschen) Quell-/Rohdaten zum Anlernen.

Beispiel:

Auf futurezone.de wir ein Artikel über die Verwendung der TomTom AmiGo-App in Verbindung mit AndroidAuto (GoogleMaps) veröffentlicht - 02.09.2025 -, der von KI erstellt und natürlich fachlich von Autoren geprüft sein soll. Es geht um "Blitzerwarnung".

Es stellt sich bei eigener Recherche jedoch heraus, dass diese Funktion bereits Wochen vorher aus der App entfernt wurde.

Das Zusammenspiel Mensch/KI hat hier nicht funktioniert, oder aber die KI hat nicht korrekt "recherchiert", somit Fake-Antworten geliefert. Leider verlassen sich jedoch immer mehr Nutzer auf die gelieferten "Ergebnisse" ohne diese zu prüfen - schließlich sollte die Ausgabe ja stimmen. Oder doch nicht? :o

Ist natürlich ein Negativbeispiel, in vielen Bereichen funktioniert es halbwegs, keine Frage. Jedoch zu 100% darauf verlassen sollte man ausblenden und die "eigene KI" (Brain) besser nutzen. ;)
 
zweitnick schrieb:
Das ist dann leider ein weiteres Beispiel warum KI auch und gerade für den Einsatz in Unternehmen ungeeignet ist und ich die Unkenrufe, dass uns die KI Millionen Jobs kosten wird, nicht nachvollziehen kann
Vielleicht macht die KI in Summe immer noch weniger Fehler als die Menschen.
 
Für mich ist das mit der AI einfach wie mit Menschen auch, es geht um Ungenauigkeiten. Eine KI kann Fehler machen, oder halt auf alten Daten basiert was generieren, was nicht mehr dem aktuellen Stand entspricht. Also immer eine Redundanz einbauen (Daten sichern, bevor die KI drüber rödelt, gucken, ob die Ergebnisse sinnig sind und auch die aktuellsten Daten vorliegen).

Beispiel wäre ChatGPT und alte Datenbank, was Grafikkarten angeht: war glaube GPT4, der kannte die RTX 5er Generation noch nicht, als die längst draussen waren: Prüfung - kennt er nicht? - gebeten "guck mal nach, es gibt die 5er schon!" - bessere Ergebnisse.

Früher war alles immer sofort klar, heute immer "viele Lösungen"... einfach unschärfer geworden, aber ich finde, dass einem eine AI echt weiterhelfen kann, wenn man selber auch "mitlernt".
 
  • Gefällt mir
Reaktionen: TPD-Andy
Zurück
Oben