Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsOpenAIs neue Spitzenmodelle: o3 und o4-mini können vor allem Bilder besser verarbeiten
Mit o3 und o4-mini hat OpenAI zwei neue Reasoning-Modelle vorgestellt, die sich bei der Leistungsfähigkeit an die Spitze setzen und mehr Funktionen bieten. So lassen sich mit den neuen Modellen etwa sämtliche Tools in ChatGPT nutzen und sie bieten Vorteile bei Agenten-Systemen.
Gleich mal testen. Was KI angeht, so fühl ich mich zurück in die Zeit Ende der 90er versetzt. Jeden Monat kommt ein schnellerer Prozessor, der nochmal 50mhz mehr drauflegt, alle paar Wochen geschieht im Internet etwas neues.
Die Entwicklung geht schnell voran. Vorgestern ist beispielsweise Kling 2.0 erschienen, was im Bereich Image-to-Video neue Maßstäbe erreicht. Nicht wie aktuell, wo man 2,5 Jahre auf eine neue GPU-Generation warten muss, die dann nur 20% schneller ist als die bisherige.
Challenge für die gelangweilte Community: Bekommt ChatGPT dazu eine (männliche, k.a. ob relevant) Person in einer Bewegung zu zeichnen (ich hab’s mit Pixelart und realistisch wie ein Foto versucht) und die nächsten Frames der Animation. Weder 4o noch das neue o3 bekommen es hin die Person so zu zeichnen, dass das von der Seitenansicht verdeckte Bein nach vorne bewegt wird, ChatGPT zeichnet bspw. bei einer links nach rechts Bewegung immer nur das rechte Bein nach vorne bewegend. Hab’s schon genau beschrieben und gesagt „ensure that…“, aber es will das ums verrecken nicht hinbekommen.
Weiß nicht ob’s an den Prompts liegt und ich damit zu doof bin oder ChatGPT das einfach nicht peilt 😄
Ja der Prompt ist etwas dünn. Das ist halt der Nachteil an der aktuellen KI man muss sie richtig prompten. Habe das Beispiel auch einmal gemacht weil bei mir dieses Jahr auch die HU ansteht. Neukauf war im Sept. 22 ergo Sept. 25 ist diese fällig:
4o:
4o-mini:
4o angepasster Prompt:
Ich kann mir auch gut vorstellen, dass die Trainingsdaten vollständige Kennzeichen waren und es somit für die Bilderkennung, was keine KI ist, schwerer ist wenn nur die Plakette gezeigt wird. Ich würde also nicht sagen, dass das ein Limit der KI bzw. des Modells ist sondern eher dem Prompting und dem Bilderkennen / ML. Noch als Info zum Bild --> Auflösung: 1652x1570 (Crop, original: 4032x3024) von einem iPhone 15 Pro Max.