News ChatGPT-Entwickler: OpenAI bietet Verlagen Millionen-Beträge für Trainingsdaten

Andy · 7. Januar 2024

Auf der Suche nach Trainingsdaten befindet sich OpenAI in Gesprächen mit Presseverlagen, um Zugang zu Nachrichtenarchiven zu erhalten. Laut The Information sollen sich die Angebote auf 1 bis 5 Millionen US-Dollar pro Jahr belaufen.

Zur News: ChatGPT-Entwickler: OpenAI bietet Verlagen Millionen-Beträge für Trainingsdaten

ka/xi 85 · 7. Januar 2024

"Hier sind 5 Millionen Euro für euren eigenen Sargnagel" - klingt nach einem fairen Deal 🤔

mojitomay · 7. Januar 2024

Was passiert, wenn eine Ki mit gefärbten Daten gefüttert wird?

Die Medien sind so negativ, sie kriegt depressionen.

cartridge_case · 7. Januar 2024

Hm, bin ich echt so hinterher? Was sind denn "Trainingsdaten" und was haben die mit Archiven der Nachrichten zu tun?

Und wieso telefoniert die Software nicht einfach so nach Hause, wie bei vielen anderen auch?

Snowi · 7. Januar 2024

cartridge_case schrieb:
Hm, bin ich echt so hinterher? Was sind denn "Trainingsdaten" und was haben die mit Archiven der Nachrichten zu tun?

Trainingsdaten sind reale Daten, die zum "anlernen" der KI dienen, also der Neuronalen Netze die darunter liegen, damit später möglichst realistische Ergebnisse entstehen.
In diesem Fall also alte Artikel. Diese alten Artikel "lernt" die KI, damit sie Dinge wie Formulierung, emotionales Schreiben usw. so weit erlernt, dass am Ende was vernünftiges als Ergebnis raus kommt.
Ich weiß nicht wie die Zeitungsartikel "früher" so waren, bin erst 28. Ich hoffe aber, sie waren länger und inhaltlich besser geschrieben als der Müll heute auf 90% der Portale, das kann man ja nicht mehr lesen.

cartridge_case schrieb:
Und wieso telefoniert die Software nicht einfach so nach Hause, wie bei vielen anderen auch?

Wie meinst du das? Die Software tut das nicht, weil die Entwickler es nicht wollen / wollten. Oder missverstehe ich deine Frage?

Zer0DEV · 7. Januar 2024

Irgendwann wird KI dann mit Daten von KI gefüttert.
Wobei das auch heute schon der Fall sein sollte...

machiavelli1986 · 7. Januar 2024

Mich würde auch interessieren, was aus den Medien als Trainingsdaten verwendet werden kann. Journalistische Beiträge sind ja primär Informationen. Was kann die KI daraus lernen, ausser darauf zu antworten, was im Nahen Osten gerade läuft? Ob sie den Gehalt an Informationen zu einem Netz weben kann, um die Welt zu verstehen und besser zu machen, stelle ich mal in Frage. Und es hat schon was, Medienbeiträge (zumindest diese von Tageszeitungen die zum Weltgeschehen berichten) sind ziemlich sicher zu einem grossen Mass negativ belastet als umgekehrt, was den Informationsgehalt anbelangt. Ob da ein allumfängliches Weltbild für die KI zustande kommen kann?

@Snowi ich hoffe da sind mehr Ideen damit verbunden als die reine "Schreibweise", die sich eine KI damit aneignen kann.

cartridge_case · 7. Januar 2024

Snowi schrieb:
Wie meinst du das?

Anders, da ich die "Trainingsdaten" anders interpretiert habe.

Danke für deine Erklärung. Für mich sind das einfach Quellen. Wenn damit "trainiert" wird, schön. Aber die Formulierung finde ich komisch.

p4z1f1st · 7. Januar 2024

Wie werden dann von der KI Daten eines Artikels interpretiert, der grundlegend "Pro-Kapitol-Stürmung" oder dem gegenüber eher "neutral" (wenn sowas überhaupt geht) formuliert wurde?

Oder verstehe ich das alles nur nicht und Trainingsdaten werden anders genutzt?

[F]L4SH · 7. Januar 2024

kaxi-85 schrieb:
"Hier sind 5 Millionen Euro für euren eigenen Sargnagel" - klingt nach einem fairen Deal 🤔

Man muss es so sehen:
Es passiert sowieso. Da ändert das auch nichts dran. Zumal die KI eh schon die offen zugänglichen Archive ausnuckelt.

So kriegt man vor dem unvermeidlichen Ende für ein stattliches Archiv eben noch mal einen mittleren zweistelligen Millionenbetrag (und in Einzelfällen sicher auch einiges mehr) raus geschlagen, die man wenn man weise ist vielleicht noch irgendwie in Umstrukturierung steckt.

denglisch · 7. Januar 2024

Dann müssten sie auch Webseitenbetreiber entlohnen, deren Daten sie ungefragt in Trainingsdaten integriert haben. Es gibt genug Veröffentlichungen die explizit für den privaten nicht-kommerziellen Gebrauch gekennzeichnet sind. Ich bezweifle dass sie hier beim automatischen Sammeln darauf geachtet haben.

Normalerweise gehen dann Firmen davon aus, dass eine kommerzielle Verwendung nicht erlaubt ist, solange sie nicht explizit eingeräumt wurde. So ist das ja auch z.B. bei Software, auch Open Source erlaubt nicht automatisch kommerzielle Nutzung. Es ist nicht alles GPL (die unter gewissen Bedingungen kommerzielle Nutzung erlaubt), auch wenn verbreitet.

Freeware ist ein anderes Beispiel: häufig kostenlos für private Nutzung, aber kostenpflichtig für Firmen.

EadZ · 7. Januar 2024

@p4z1f1st
Ich denke, hier geht es eher um das "Wie" als um das "Was". Die Antworten von ChatGPT und Co. sollen ja möglichst natürlich wirken. Mit Daten von Verlagen, die ja ebenfalls daran interessiert sind, möglichst viele Leser zu erreichen (und das nicht nur durch Inhalt), kann man diesem Ziel näher kommen.

Snowi · 7. Januar 2024

machiavelli1986 schrieb:
Journalistische Beiträge sind ja primär Informationen. Was kann die KI daraus lernen, ausser darauf zu antworten, was im Nahen Osten gerade läuft?

Theoretisch könnte die KI spätere Beiträge um geschichtlichen Kontext ergänzen.
Beispiel Israel: Woher kommt der Konflikt, also wie entstand er? Wie hat er sich entwickelt? Welche Lösungsversuche gab es?
Fände ich insgesamt gut, leider kommen diese Informationen dann aus nicht nachprüfbaren Quellen (Da die KI höchstwahrscheinlich keine Quellenangaben ausspucken wird, bzw. keine ausreichenden oder funktionierenden).
Zum anderen sind die Quellen dann nicht Objektiv, denn wann gab es jemals Objektive Zeitungen? Zumindest heute sind mir keine bekannt, jeder fährt seine Agenda, auch eine FAZ, eine ZEIT, eine Süddeutsche, eine NZZ oder leider auch eine Zwangsgebührenfinanzierte Tagesschau.

machiavelli1986 schrieb:
@Snowi ich hoffe da sind mehr Ideen damit verbunden als die reine "Schreibweise", die sich eine KI damit aneignen kann.

Schwierig, siehe die paar Zeilen direkt hierüber (gleicher Kommentar). Die Quellen sind mMn nicht prüfbar und damit ist der Informationsgehalt quasi gleich 0.

cartridge_case schrieb:
Dann müssten sie auch Webseitenbetreiber entlohnen, deren Daten sie ungefragt in Trainingsdaten integriert haben.

Daher laufen da ja schon Klagen

Abrexxes · 7. Januar 2024

So ähnlich wie "Mein Kampf" müssten Daten vorher kuratiert werden. Eine komplett neutrale Zeitung gab es nie. Vieles hing ( früher noch stärker) davon ab wer der Eigentümer war.

Aber wie sollte man das anstellen? Das würde im Kampf der erste zu sein zu lange dauern. Das kann was werden.

Snowi · 7. Januar 2024

Abrexxes schrieb:
Aber wie sollte man das anstellen? Das würde im Kampf der erste zu sein zu lange dauern. Das kann was werden.

Gibt Leute die lieber Qualität haben statt Quantität und möglichst schnell und ungeprüft. Das war ja damals zB der Hintergrundgedanke von Krautreporter.
Leider war die politische Agenda hinter Krautreporter noch krasser als bei anderen Zeitungen, weshalb ich nach dem Abgang von Tilo Jung wegen dem teilen eines Memes gekickt wurde. Sehr schade, das Konzept gefiel mir sehr gut, hätte ich gerne weiter für gezahlt.

Krik · 7. Januar 2024

machiavelli1986 schrieb:
Mich würde auch interessieren, was aus den Medien als Trainingsdaten verwendet werden kann. Journalistische Beiträge sind ja primär Informationen. Was kann die KI daraus lernen, ausser darauf zu antworten, was im Nahen Osten gerade läuft? Ob sie den Gehalt an Informationen zu einem Netz weben kann, um die Welt zu verstehen und besser zu machen, stelle ich mal in Frage. Und es hat schon was, Medienbeiträge (zumindest diese von Tageszeitungen die zum Weltgeschehen berichten) sind ziemlich sicher zu einem grossen Mass negativ belastet als umgekehrt, was den Informationsgehalt anbelangt. Ob da ein allumfängliches Weltbild für die KI zustande kommen kann?

@Snowi ich hoffe da sind mehr Ideen damit verbunden als die reine "Schreibweise", die sich eine KI damit aneignen kann.

Die KI lernt mehr.
Sie lernt nicht nur den Schreibstil, sie lernt auch Redewendungen, Primärinformationen ("Es ist Krieg!"), unterscheidet Prioritäten (was wird wird oft erwähnt? was weniger?) und - ganz wichtig - sie verknüpft Informationen miteinander (Bundesfinanzminister -> will schwarze Null -> erfunden von der CDU -> hatte als Mitglied Helmut Kohl -> regierte während des Mauerfalls -> usw.).

[wege]mini · 7. Januar 2024

cartridge_case schrieb:
Was sind denn "Trainingsdaten" und was haben die mit Archiven der Nachrichten zu tun?

Wenn ich hier etwas poste, muss man CB fragen, um meinen Stumpfsinn wirtschaftlich verwerten zu dürfen.

Ob man einer KI vorlesen darf, was ich hier gepostet habe und diese dann daraus lernt, ist noch nicht komplett juristisch geklärt.

Wir reden ausnahmsweise dann wirklich über Neuland.

Ein Angebot, welches Rechtssicherheit schafft und im Monetären Bereich lachhaft ist, kann man aber mal machen. Abwarten, wie die Reaktion darauf ausfallen wird.

mfg

mae · 7. Januar 2024

kaxi-85 schrieb:
"Hier sind 5 Millionen Euro für euren eigenen Sargnagel" - klingt nach einem fairen Deal 🤔

Das ist vielleicht irgendwann der Sargnagel fuer menschliche Autoren bei diesen Verlagen, aber ich denke, die Verlage koennen sehr gut damit leben, wenn in Zukunft die AI statt menschlicher Autoren die Artikel schreibt. Hauptsache, billiger.

Krik · 7. Januar 2024

Ich glaube nicht, dass so viele Journalisten ihren Job verlieren. Irgendwer muss ja trotzdem aktuelle Informationen in die KI eingeben.
Aber die Leute, die nur die vorgegebenen Artikel von AP usw. kopieren, die werden arbeitslos.

[wege]mini · 7. Januar 2024

mae schrieb:
aber ich denke, die Verlage koennen sehr gut damit leben

Das ist korrekt.

Wenn man deinen Gedankengang zu Ende denkt stellt man aber fest, dass juristische Personen ohne Menschen existieren.

Wenn also "der Verlag" nur noch eine KI ist, was total einfach wäre, dann haben alle Menschen verloren. Nicht nur die Schreiberlinge.

mfg

News ChatGPT-Entwickler: OpenAI bietet Verlagen Millionen-Beträge für Trainingsdaten

Tagträumer

Lt. Commander

Lt. Commander

Fleet Admiral

Snowi

Gast

Commander

Commander Pro

Fleet Admiral

Commander

Rear Admiral

Lt. Junior Grade

Lt. Commander Pro

Snowi

Gast

Commodore Pro

Snowi

Gast

Fleet Admiral Pro

Banned

Commander

Fleet Admiral Pro

Banned

Ähnliche Themen

Passend zum Thema