News Neues Modell für ChatGPT: Bringt GPT-5.2 die Trendwende für OpenAI?

Rollkragen schrieb:
Nun ja, ich bin zunehmend genervt von ChatGPT, trotz Abo. Die Antworttexte werden immer länger (hallozinieren), was sich jedoch nicht inhaltlich in relevanten Fakten niederschlägt, sondern schlicht in „Masse“. Dazu kommen Wiederholungen. Wenn ich anweise, keine Wiederholungen, kurze, prägnante und fachlich relevante Texte, kommt oft als Erstes die Floskel: "Hier eine kurze, fachlich fundierte Antwort“ gefolgt von einem extrem langen Text ohne viel Inhalt.

Gemini macht das ein wenig besser. Ich gebe mittlerweile bestimmte Fragestellungen einmal bei ChatGPT und dann bei Gemini ein. Letzteres ist häufiger kürzer, sachlicher und liefert gute Quellennachweise. Es würde mich auch nicht wundern, wenn Gemini langfristig ChatGPT den Rang abläuft, zumal Alphabet deutlich andere finanzielle Ressourcen besitzt.
Bei Gemini kannst du in den Einstellungen Anweisungen für die KI machen. Unter Einstellungen -> Anweisungen für Gemini.
Habe somit weitgehend die ganzen Floskeln etc. abgewöhnt.
 
  • Gefällt mir
Reaktionen: schneeland, Protogonos und Kuristina
DoS007 schrieb:
Anhang anzeigen 1684617
(Quelle: https://artificialanalysis.ai/evaluations/gdpval-aa )

Wie passt das zu (z.B. 5.1 oder 5):

Anhang anzeigen 1684618
(5.2, 5.1, Opus 4.5, Gemini 3 Pro)


Vllt ist GDPval-AA (von Artificial Analysis?) anders?
Ergänzung ()


Kriegen die nicht das "Instant"-Model? (hätte ich jetzt spontan gedacht)
wo ist das problem? die erste grafik ist ein elo rating. die zweite mit den % heißt wie oft die antwort besser oder gleich gut im vergleich zu einem menschen ist. in 12 monaten sind die antworten vielleicht schon 90% oder öfter besser als vom menschen und in 10 jahren bauen wir die dyson sphäre ;)

was ein elo rating ist kannst du hier nachlesen
https://de.wikipedia.org/wiki/Elo-Zahl
"Jedem Spieler ist eine Elo-Zahl R (von englisch rating) zugeordnet. Je stärker der Spieler, desto höher die Zahl. Treten mehrere Spieler gegeneinander an, so lässt sich aus den Elo-Zahlen der Spieler die erwartete Punktezahl der jeweiligen Spieler bestimmen."
 
Stagefire85 schrieb:
Gibt es den Erotikmodus schon?
ja klar, bei den öffentlichen modellen wird das nur unterdrückt. hatte mal die lokale bildgenerierung mit einem unzensierten lokalen modell ausprobiert und einfach nur "asdfg" eingegeben. Zu meiner überraschung wurde ein sehr freizügiges bild einer lady auf diesen promt hin erzeugt. Aber wenn man sich überlegt aus was das halbe internet besteht wird schnell klar was ein großteil der trainingsdaten ausmacht.
 
Das mag für Mathematik oder so was ja wichtig sein, aber für mich ist immer wichtig das der Chat nicht zu schlimmen bias hat, witzigerweise ist Musks A.I. sehr pro Mainstream während da ChatGPT wider erwarten ein bisschen neutraler ist, teils sagt Grok auch schon mal "Nein ..." und dann ist das hinter dem ... viel mehr ein Ja als ein Nein oder umgekehrt...

Ich glaube Musk wollte den mehr "based" haben aber als da dann Mechahitler und co raus kam, hat man aufgegeben und ihn pro Mainstream gelassen.
 
  • Gefällt mir
Reaktionen: Aslo
Die Fortschritte, welche in den letzten Wochen gemacht wurden, sind echt enorm. Einzig die gestiegenen Kosten für das neue Modell sind schade.
 
  • Gefällt mir
Reaktionen: Strahltriebwerk
Rollkragen schrieb:
Nun ja, ich bin zunehmend genervt von ChatGPT, trotz Abo. Die Antworttexte werden immer länger (hallozinieren), was sich jedoch nicht inhaltlich in relevanten Fakten niederschlägt, sondern schlicht in „Masse“. Dazu kommen Wiederholungen. Wenn ich anweise, keine Wiederholungen, kurze, prägnante und fachlich relevante Texte, kommt oft als Erstes die Floskel: "Hier eine kurze, fachlich fundierte Antwort“ gefolgt von einem extrem langen Text ohne viel Inhalt.

Gemini macht das ein wenig besser. Ich gebe mittlerweile bestimmte Fragestellungen einmal bei ChatGPT und dann bei Gemini ein. Letzteres ist häufiger kürzer, sachlicher und liefert gute Quellennachweise. Es würde mich auch nicht wundern, wenn Gemini langfristig ChatGPT den Rang abläuft, zumal Alphabet deutlich andere finanzielle Ressourcen besitzt.

Du sprichst mir aus der Seele: Die Qualität, einen Text zu optimieren, aber nahe beim Original zu bleiben, war bei ChatGPT noch nie so schlecht wie jetzt. Die Qualität wird momentan nur eins: schlechter.

Google und Microsoft möchte ich nicht so viele Daten liefern. Zumindest werde ich die mal ausprobieren, ob die Qualität dort eher stimmt.
 
  • Gefällt mir
Reaktionen: Protogonos
O2 hat mir heute 6 Monate kostenlose Nutzung geschenkt. Probiere ich mal aus. Wüsste nicht, was in meinem Fall sich groß ändern könnte. War auch bisher zufrieden mit der kostenlosen Version.
 
Blaexe schrieb:
Ein sehr wichtiger Punkt fehlt hier, was dann schon ein Gschmäckle hat:

Für GPT5.2 gibt es die "Thinking Stufen" Low, Medium, High und xHigh. Die Benchmarks sind mit xHigh erstellt.
Also normaler ChatGPT Nutzer mit Abo hat man aber nur Low (Standard) und Medium (Extended Thinking) zur Verfügung.

Mit dem sehr teuren GPT Pro Abo dann noch zusätzlich High.

Die Intelligenz die man mit dem Abo bekommt entspricht also nicht der von den Benchmarks. Mit Gemini 3.0 Pro kriegt dagegen jeder die beworbene Intelligenz.


Das zeigt mMn. sehr gut, dass die Thinking Modelle gut mit der verfügbaren Rechenleistung skalieren. Das heißt effizienzgewinne und bessere Hardware sind künftig nach wie vor wichtige Faktoren die KI voranbringen. Das steht somit entgegen der Stimmen dass man angeblich gegen eine Wand rennt und unendlich viele Daten zum Training bräuchte damit die Modelle skalieren…

Mich würde ja echt mal interessieren, wie die internen Forschungsergebnisse dazu aussehen. Also beispielsweise wenn man einem aktuellen Thinking Model 1000x oder 1Mx mehr Ressourcen für eine Anfrage zur Verfügung stellt.

Ich denke mal Open Ai würde da nicht so absurd viel Geld reinpumpen wenn sie nicht wüssten dass es sich lohnt.
 
  • Gefällt mir
Reaktionen: Kaliumhexacyano und Strahltriebwerk
SockeTM schrieb:
Was dieses Bild aussagen will, steht doch mit Zahlen untermauert im Bild, man muss das auch interpretieren
wollen :-D
Das ist doch genau solch ein Fal.. Die Leute können nicht einmal mehr einfache Diagramme lesen und verstehen. Dann wird das Bild bei GPT für eine Erklärung hochgeladen, die scheiss KI halluziniert und man glaubt was dabei rauskommt :freak:
 
  • Gefällt mir
Reaktionen: NoNameNoHonor und SockeTM
Katze, ich habe gefurzt 5.2, yuchu. Nutze jetzt öfter le chat und bin zufrieden. Für meine Zwecke mehr als ausreichend.
 
  • Gefällt mir
Reaktionen: Floppes
Wie stark das Modell halluziniert, hängt aber nach wie vor vom jeweiligen Anwendungszweck ab. Verbessert haben sich die Werte etwa im Bereich Unternehmen und Marketing sowie aktuellen Ereignissen und Nachrichten.

Haben sich nicht genau diese Werte verschlechtert?
 
ChatGPT 3.1 konnte damals kurz und prägnant spezielle Anweisungen für Docker verstehen, und das Wichtigste ausgeben, jetzt labert es einen Backfisch mir an die Lippe, wichtige und hilfreiche Hinweise sind in dem Pamphlet unter gestreut, ChatGPT wird nur eins nämlich schlechter, mittlerweile bin ich auch bei Gemini gelandet und betreibe beide noch parallel aber nicht mehr lange auf Wiedersehen ChatGPT, hinzukommt noch der Zensus, vieles ist zensiert bei ChatGPT um keine Diskussionen auszulösen möchte ich jetzt nicht genauer drauf eingehen. Und viele Halluzinationen wenn man dann darauf hinweist dass die Aussage komplett falsch ist versucht es sich heraus zu reden mit Schmeichelei
 
  • Gefällt mir
Reaktionen: Freedstorm, Anti-Monitor und Salrok
Einige Reports auf x kommen schon rein, dass 5.2 gar nicht so gut performed aktuell.
 
  • Gefällt mir
Reaktionen: chillipepper und Dual-O
n0sk437 schrieb:

SockeTM schrieb:
Was dieses Bild aussagen will, steht doch mit Zahlen untermauert im Bild, man muss das auch interpretieren
wollen :-D
Man muss die Zahlen interpretieren, richtig. Dass da zwei gleiche Diagramme mit verschiedenen Beschriftungen der y-Achse nebeineinander gestellt werden macht die Vergleichbarkeit aber eh kaputt.
Dann schreibt man besser Zahlen und vermeintliches Fazit aus.
So ist Bauernfängerei, gebaut auf der Hoffnung die Menschen würden eh nicht genau hinsehen.
 
Was hatte mal ein User vor ca. 3 Jahren, hier oder auf PCGH, geschrieben,
"die Büchse der Pandora wurde bereits geöffnet".
Ich kann den Zusammenhang jetzt nimmer 1 zu 1 zusammenfassen,
dabei ging es aber nicht um Skynet... noch nicht xD.

Da rollt etwas Gewaltiges auf uns zu.
Unser Nachbar, Italien, hat zum Glück rechtzeitig erkannt,
dass dieses "Werkzeug" streng reglementiert werden muss.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: chillipepper
Ich finde sehr überraschend wieviel hier und anderswo scheinbar wirklich denken, die LLM Systeme seien intelligent. Es sind stochastische Maschinen, die Ergebnisse nach Wahrscheinlichkeits-Trainings basierend auf immensen Datenmengen (darunter auch falsche Daten!) errechnen.

Das ist keine intelligenz! Intelligenz ist kontextualisiertes Wissen. Die Systeme können nicht denken sondern nur die Wahrscheinlichkeits-Algorithmen neu starten und dabei leicht anpassen.

Zumindest wenn die jetzigen Systeme auf den LLM Maschinen beruhen, die halt vor wenigen Jahren entwickelt wurden. Theoretisch könnten die natürlich längst einen total neuen, heißen Scheiss dort eingebaut haben, aber die Ergebnisse sprechen dagegen.

In diesen Systemen ist Halluzination systemimmanent. Halluzinationen sind keine Bugs sondern Features. Bei riesigen Grafikberechnungen, wie DLSS oder aufwendig, iterative Videoerstellung ist das OK. Aber nicht bei Sprachresultaten, wo exakte Ergebnisse erwartet werden.
Das KANN das System gar nicht, weil es nunmal nicht intelligent ist.

Wer Mass Effekt kennt, weiss von der dortigen Trennung zwischen KI und VI. Was wir haben ist maximal VI. Es faked intelligenz... isses aber nicht.
Es kann sein, dass wir mit dieser Technik bereits ein Plateau erreicht haben, wo es länger kaum Fortschritt gibt. Das ist schlicht unbekannt.
 
  • Gefällt mir
Reaktionen: Freedstorm, Prophetic, Bademeister69 und 10 andere
Zurück
Oben