News OpenAIs neue Spitzenmodelle: o3 und o4-mini können vor allem Bilder besser verarbeiten

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
8.213
  • Gefällt mir
Reaktionen: aid0nex und konkretor
Gleich mal testen. Was KI angeht, so fühl ich mich zurück in die Zeit Ende der 90er versetzt. Jeden Monat kommt ein schnellerer Prozessor, der nochmal 50mhz mehr drauflegt, alle paar Wochen geschieht im Internet etwas neues.

Die Entwicklung geht schnell voran. Vorgestern ist beispielsweise Kling 2.0 erschienen, was im Bereich Image-to-Video neue Maßstäbe erreicht. Nicht wie aktuell, wo man 2,5 Jahre auf eine neue GPU-Generation warten muss, die dann nur 20% schneller ist als die bisherige.
 
  • Gefällt mir
Reaktionen: Zagrthos, konkretor und BigP
Ich habe mal testweise ein Bild einer Auto Plakette hochgeladen mit der Frage "wann ist mein TÜV fällig?".

  • 4o hat es nach 4 Anläufen immer noch nicht richtig interpretiert
  • o4-mini lag auch falsch, habe keine weiteren Versuche probiert
  • o3 hat ewig gebraucht (7min und 35sek) und es war richtig, erster Anlauf! Wow :D

Scheinbar ist das Beispiel besonders schwer. Interessant zu sehen wo die Grenzen sind. Vieles geht sonst super :D.
 
  • Gefällt mir
Reaktionen: Zagrthos, aid0nex, Rock Lee und 3 andere
@ABCD.

Interessant wäre dein Prompt :)
 
  • Gefällt mir
Reaktionen: Zagrthos, ABCD., Zarlak und eine weitere Person
Challenge für die gelangweilte Community: Bekommt ChatGPT dazu eine (männliche, k.a. ob relevant) Person in einer Bewegung zu zeichnen (ich hab’s mit Pixelart und realistisch wie ein Foto versucht) und die nächsten Frames der Animation. Weder 4o noch das neue o3 bekommen es hin die Person so zu zeichnen, dass das von der Seitenansicht verdeckte Bein nach vorne bewegt wird, ChatGPT zeichnet bspw. bei einer links nach rechts Bewegung immer nur das rechte Bein nach vorne bewegend. Hab’s schon genau beschrieben und gesagt „ensure that…“, aber es will das ums verrecken nicht hinbekommen.

Weiß nicht ob’s an den Prompts liegt und ich damit zu doof bin oder ChatGPT das einfach nicht peilt 😄
 
Cool Master schrieb:
@ABCD.

Interessant wäre dein Prompt :)
4o:
1744931009598.png



o3 (Ausgabe von mir gekürzt):
1744931221230.png
 
Zuletzt bearbeitet:
Ja der Prompt ist etwas dünn. Das ist halt der Nachteil an der aktuellen KI man muss sie richtig prompten. Habe das Beispiel auch einmal gemacht weil bei mir dieses Jahr auch die HU ansteht. Neukauf war im Sept. 22 ergo Sept. 25 ist diese fällig:

4o:

4o.png


4o-mini:

4o-mini.png


4o angepasster Prompt:

4o-neuer prompt.png


Ich kann mir auch gut vorstellen, dass die Trainingsdaten vollständige Kennzeichen waren und es somit für die Bilderkennung, was keine KI ist, schwerer ist wenn nur die Plakette gezeigt wird. Ich würde also nicht sagen, dass das ein Limit der KI bzw. des Modells ist sondern eher dem Prompting und dem Bilderkennen / ML. Noch als Info zum Bild --> Auflösung: 1652x1570 (Crop, original: 4032x3024) von einem iPhone 15 Pro Max.
 
  • Gefällt mir
Reaktionen: ABCD.
Zurück
Oben