@Bright0001, ich nehme deine Kritik an, insofern ich mir mehr Mühe hätte geben sollen bei meinem Post. Er ist missverständlich und in der Form nicht angemessen gewesen. Entschuldige dies bitte!
In meinem Post habe ich mich auf einen expliziten Teil von dir bezogen, in dem du die Meldung von Intel als "lächerlich" bezeichnest, um dann zu suggerieren, dass Inferenz auf der CPU auch mit 5Token/Sek und eine kleine Karte mit 8GB VRAM absolut ausreichend sein.
Diesen Standpunkt verteidigst du später auch noch. Es gibt natürlich Workloads, wo das völlig ausreichend und angemessen ist. Aber es gibt halt auch andere Workloads!
Ein Beispiel von mir, ebenfalls privat (wo auch weder eine RTX 9000 Pro, noch L40 sinnvoll sind): Ich habe mit Gemma 3 4B für alle meine Bilder, das sind etwas über 20k, eine textliche Beschreibung erstellen lassen, um darauf denn semantische Suchen und Gruppierungen vornehmen zu können. Diese Erstellung der Beschreibung hat rund 3 Tage gedauert und ich war mit deutlich über 100 Token/Sek unterwegs. Die Beschreibungen erstellt man einmal, aber auch dafür sind 3 Tage Dauerlast auf dem PC eine Geduldsprobe.
Es gibt verschiedene Workloads und das sollte man zumindest respektieren, selbst dann, wenn man sie persönlich nicht für sinnvoll oder notwendig hält. Pressemitteilungen als lächerlich oder Gülle zu bezeichnen lässt dies nicht erkennen und ist in der Form aus meiner Sicht auch nicht angemessen.
Insofern bleibe ich bei meiner Aussage, du sitzt im Glashaus und schmeißt mit Steinen.