Naja ich denke das kann man mit GW doch ganz grob genauso - so 1,5 GW reichen z.B. für den kleinsten der "Grossen" AI Systeme - für Musks Colossus 2.
Jo klar tokens ist sicher priunzipiell besser - aber da ja inzwischen fast alle Modelle Multimodal sind - wie viele Tokens braucht Sprach, Bilderekennung, Bilderzeugung, Video und Sounderzeugung etc. Und was verbrät reasoning?
Eine direkter short chat braucht vielleicht 2000 tokens - ausser der short chat besteht aus einer Agentenanweisung bau mir mal ein besseres GTA 6 als Rockstar bringt in der besten Unreal Grafik die es gibt
Und ich glaube dahin geht AI - in immer unspezifischere Fragen durch Nutzer - also nicht mehr wie funktioniert XY sondern mach mal eine iPhone App die die Gravitaion lokal aufhebt.
Durch immer mehr Multimodal Reasoning und Agenten verliert halt token / sec zunehmend an Vergleichbarkeit - das war ok für so eher einfache Textwissensanfragen - finde ich, weil ja immer mehr hinter den Kulissen irgendwo rumwerkelt.
Wer weiss ob heute ein "mach mal nen kleinen Comic film über so'n Raumschiff" nicht dazu führt dass die AI das in Agenten auteilt und damit das auf dem Computerscreen des Videos richtig aussieht kurz mal die Rätsel der Gravitation löst und beweist ob es Gott gibt oder nicht und was der so auf Amazon bestellt, weil irgendein Agent das wichtig fand damiot das korrekt dargestellt wird

und man aus Versehen auf Ultra Max Super Thinking and Reasoning gestellt hatte.