News Intel-Studie: Wie stark verlagern sich AI-Berechnungen auf lokale PCs?

Innocience schrieb:
Bislang ist die Devise unter Einstiegs GPUs immer noch: RT aus - spielbar. RT an - unspielbar.
Haben tun vielleicht alle; nutzen jedoch?
ja aber wenn du wölltest könntest du...ob das ein gutes ergebnis liefert ist an der stelle nicht gefragt...

zum thema:
ich versteh ja das die chatgpt und co irgendwo trainieren müssen und sich das nutzen über irgendne cloud einfacher gestallten lässt wie wir verkaufen euch nen download link zu ner datei die eure festplatte füllt und ihr lasst das ding dann erstmaln paar tage selber lernen damit eh ihrs nutzen könnt weil ihr wieder nur die billig notebooks der letzten generation gekauft habt.
 
Stahlseele schrieb:
Also wälzen die ganzen großen Anbieter die Stromkosten und die Hardware auf alle Endgerätebenutzer ab?

Ist doch egal ob du den Strom bei dir bezahlst oder über den Anbieter woanders...


wahli schrieb:
AI könnte lokal evtl. auch auf der Grafikkarte laufen. Mal schauen, ob die GPU-Hersteller nicht auf diesen Zug aufspringen.

Im Moment sind ja 40 TOPS NPU Leistung definiert für einen AI-PC. Aber das ist ja verdammt wenig, wenn man es mit vielen Anwendungen vergleicht. Die Frage ist was darüber überhaupt dann laufen soll.

Wer will wirtschaftlich mit einem 7B Model lokal arbeiten, wo man schon die 40 TOPs für haben sollte? Wer erstellt damit Bilder oder andere Sachen, wenn es unglaublich viel Zeit dauern würde? Dazu bräuchte es auch noch ordentlich RAM. Und wenn man etwas aktuelles wie GPT4 ausführen möchte, braucht es nicht nur 500 TOPs+, sondern auch 200GB RAM oder besser VRAM über die GPU.

Irgendwie ist das am Desktop alles nichts Ganzes.

Smartphone oder Notebook -> NPU -> okay für gezielte Sachen
PC -> bessere eine GPU für Geschwindigkeit und deutlich mehr TOPs -> deutlich produktiver
Cloud -> wird lange nichts dran vorbeiführen für die besten Sachen

---

Und dann kommt Intel und setzt alles aus NPUs in ihren Prozessoren? Und gerade da bei KI so viel passiert und alles so schnelllebig ist, wird ein AI-PC sicherlich nicht lange ein AI-PC bleiben.
 
@Ayo34
Lokal würden natürlich nur kleinere Dinge laufen.
 
Da muß Intel noch ein wenig nachlegen, da deren stärkstes Modell 120 TOPS (Int8) schafft.


GPU​

MSRP​

VRAM​

AI TOPS (INT8)​

NVIDIA GeForce RTX™ 5090​

$2,000​

32 GB​

838​

NVIDIA GeForce RTX™ 3090 Ti​

$2,000​

24 GB​

320​

NVIDIA GeForce RTX™ 4090​

$1,600​

24 GB​

660.6​

NVIDIA GeForce RTX™ 4080​

$1,200​

16 GB​

389.9​

NVIDIA GeForce RTX™ 3080 Ti​

$1,200​

12 GB​

272.8​

AMD Radeon™ RX 7900 XTX​

$1,000​

24 GB​

122.8​

NVIDIA GeForce RTX™ 5080​

$1,000​

16 GB​

450.2​

NVIDIA GeForce RTX™ 4080 SUPER​

$1,000​

16 GB​

418​

NVIDIA GeForce RTX™ 2080 Ti​

$1,000​

11 GB​

227.7​

NVIDIA GeForce RTX™ 4070 Ti SUPER​

$800​

16 GB​

353​

NVIDIA GeForce RTX™ 5070 Ti​

$750​

16 GB​

351.5​

NVIDIA GeForce RTX™ 4070 SUPER​

$600​

12 GB​

284​

NVIDIA GeForce RTX™ 5070​

$550​

12 GB​

246.9​

Intel Arc™ B580​

$250​

12 GB​

233​

Intel Core Ultra 9 288V​

NÖ​

120​

Das müßte mindestens in den kleinen Modellen verfügbar sein um es wirklich für die breite Maße interessant zu sein.
 
  • Gefällt mir
Reaktionen: ruthi91
Gerade LLMs sind so ressourcenfressend, dass es keine Consumer-HW gibt die Modelle lokal ausführen kann, die man eigentlich nutzen will, falls diese überhaupt öffentlich verfügbar sind.
 
  • Gefällt mir
Reaktionen: Haldi und Ayo34
Oh, ah, NPU, das wird der Markttrend und wir haben es....bald.
Die Studie war völlig unnütz und rausgeschmissenes Geld.
NPU ist ja kein Baby von Intel sondern der Druck kam von Microsoft.
In Sachen NPU rennt Intel auch nur dem Markt hinterher.

Der Sinn einer Studie ist es den Bedarf zu klären, ein Produkt zu entwicklen und im Markt zu implementieren.
 
  • Gefällt mir
Reaktionen: TechFA
NameHere schrieb:
Da muß Intel noch ein wenig nachlegen, da deren stärkstes Modell 120 TOPS (Int8) schafft.


Das müßte mindestens in den kleinen Modellen verfügbar sein um es wirklich für die breite Maße interessant zu sein.
Gute Liste mit Hardware aus der gamer-Blase. Irgendwie doch ein unpassender Vergleich, da von breiter Masse zu schreiben. Was die npu genau in der Realität aussagen, muss auch besser erklärt werden.
 
@icetom Die Liste zeigt sehr gut was man für eine AI Leistung benötigen könnte und gleichzeitig weiß man ja, dass selbst eine 5090 für viele Dinge nicht ausreicht.

Daher macht eben eine Cloud für viele Endanwender auch mehr Sinn als eine kleine NPU für KI wo die Leistung, aber auch Qualität einfach deutlich von der Spitze entfernt ist.

Und wenn du auf der Arbeit immer 1min auf eine Antwort warten musst anstelle von 1sec und gleichzeitig das Ergebnis bei 1min auch noch deutlich schlechter ist, dann wird sich quasi keiner wirtschaftlich für die NPU entscheiden. Aber Intel scheint genau das zu glauben.

--

Und dann kommen die Investoren. Diese investieren in Nvidia und Rechenzentren und nicht in Intels NPU Ansatz... aber natürlich können auch alle anderen die Situation falsch einschätzen.
 
  • Gefällt mir
Reaktionen: NameHere
icetom schrieb:
Gute Liste mit Hardware aus der gamer-Blase. Irgendwie doch ein unpassender Vergleich, da von breiter Masse zu schreiben.
Du weist schon wofür die die 3090, 4090 und die 5090 gekauft werden? Der große VRAM ist für den AI-Kram essentiel. Warum werden beschnittene 4090/5090 nach China verkauft? Um die Gamer dort zu ärgern?
Eine 5090 alleine ist auch sehr oft zu wenig für LLM u.ä.
 
KarlAlbrecht schrieb:
@Stahlseele
Ja und es macht ja auch Sinn. Man verarbeitet lokal selbst seine Daten und die Firmen haben die Kapazität frei für weiteres Training. Und gerade deutsche oder europäische Firmen haben es sehr viel einfacher bezüglich DSGVO etc.

Von daher kann ich persönlich es nur begrüßen wenn es so läuft.
Ergänzung ()


Training der Modelle bei den Firmen, Ausführung bei mir. Das ist das beste, was geschehen kann für den Kunden. Daher: keine NPU ist verschwendetes Silizium.
Mal getestet, was passiert, wenn du versuchst den AI kram ohne Netzwerk / Internetverbindung zu benutzen?
Geht das oder kommt da irgend eine Fehlermeldung?
 
Stahlseele schrieb:
Geht das oder kommt da irgend eine Fehlermeldung?
Na es kommt eben drauf an, was du nutzt. Bisher gibt es ja nicht viel, was man lokal nutzen kann. Mein Immich macht es jedenfalls auch lokal ohne Internet.
 
Ayo34 schrieb:
Ist doch egal ob du den Strom bei dir bezahlst oder über den Anbieter woanders...
Nein, weil den dann eben ich zahle und nicht die großen Firmen.
Die bekommen schon genug Subventionen und Unterstützung und Rabatt für deren Strompreise, während der für Privatkunden trotz Überproduktion bei Solar und Wind nur noch nach oben geht . .
Ergänzung ()

@KarlAlbrecht
Immich? Nie gehört. Input?
 
@Stahlseele Dafür lade ich halt aber auch nicht meine Rechnungen, Bilder, Emails, Quellcodes, Texte, Krankheiten, Träume, etc. zu irgendeinem Anbieter im Internet hoch.
Je nach Anwendungszweck kann beides nützlich sein.
Ergänzung ()

NameHere schrieb:
Eine 5090 alleine ist auch sehr oft zu wenig für LLM u.ä.
Jo. Ich habe die letzten Wochen viel herumexperimentiert und LLMs unter 70B machen wenig Spaß, und dafür braucht man 80-96 GB VRAM (je nach Kontext).
 
pmkrefeld schrieb:
Gerade LLMs sind so ressourcenfressend, dass es keine Consumer-HW gibt die Modelle lokal ausführen kann, die man eigentlich nutzen will, falls diese überhaupt öffentlich verfügbar sind.
Also auf meinem Laptop läuft ganztägig ein knapp unter 40GB (inkl. Context etc) großes Qwen3 im Hintergrund, das ich für alles mögliche nutze. Das flutscht eigentlich recht gut. Ich würde auch deutlich größere Modelle ans laufen bekommen (hab da auch einiges getestet), aber das kleinere Qwen3 ist aktuell für mich der Sweetspot aus Ressourcenverbrauch, Speed und Qualität. Das sehe ich daher dann auch anders als Sirkhan ein Post hier drüber.
 
Ayo34 schrieb:
Daher macht eben eine Cloud für viele Endanwender auch mehr Sinn als eine kleine NPU für KI wo die Leistung, aber auch Qualität einfach deutlich von der Spitze entfernt ist.
Eine NPU ist vor allem für eine Beschleunigung von kleineren Aufgaben in effizienter Manier gedacht. Nicht um grossen KI Load zu berechnen.

Das macht bei mobilen PCs viel aus im Zusammenhang mit Stromverbrauch und dadurch Laufzeit.

auch wenn es vielleicht lächerlich klingt, aber der Background Blurr in Teams geht mit einer NPU deutlich effizienter als wenn dies auf der iGPU oder CPU laufen würde. In der Summe macht das dann schon was aus.
Und auch eine dGPU könnte das niemals so effizient.
 
  • Gefällt mir
Reaktionen: schneeland
KarlAlbrecht schrieb:
Mein Immich macht es jedenfalls auch lokal ohne Internet.
Und auch ganz ohne NPU nur mit CPU power... Was interessiert es mich ob ein Bild jetzt in 0.5seknoder 10 Sek getagged ist?
Effizienz mässig ist das natürlich positiv aber für die par Fotos am Tag ziemlich irrelevant.

SirKhan schrieb:
Jo. Ich habe die letzten Wochen viel herumexperimentiert und LLMs unter 70B machen wenig Spaß, und dafür braucht man 80-96 GB VRAM (je nach Kontext).
Mit nem AMD Ryzen AI Max 395+ und 128GB LPDDR5 wovon 96gb für die GPU partitioniert wurden kommen da rund 3-4 Token/sec raus, laut STH.
Also Cool ja. Aber doch bissel lahm vs Cloud.

Zhan schrieb:
Also auf meinem Laptop läuft ganztägig ein knapp unter 40GB (inkl. Context etc) großes Qwen3 im Hintergrund,
Oh cool.
Kennst du gerade ne gute Lösung für RAG? hätten da so 2-3000 PDFs mit Bestellungen, Rechnungen, Auftragsbestätigungen die Auftragsbezogen abgelegt sind.
Da nen tolled DMS das man befragen kann "Wann wurde Artikel xyz zuletzt gekauft und bei wem für wie teuer" wäre schon recht cool.



CadillacFan77 schrieb:
kleineren Aufgaben in effizienter Manier gedacht.
Hast du da außer dem Videocall blurr noch weitere Bespiele was das so für Funktionen sind?
 
Haldi schrieb:
Und auch ganz ohne NPU nur mit CPU power...
Läuft auf der GPU. Ja das war auch nur ein Beispiel. Wenn ich lokal ein Chatbot laufen lassen kann, oder was zum Bilder bearbeiten etc. bin ich froh wenn es lokal läuft und ich die Bilder nicht alle in die Cloud laden muss. Das gute ist ja, ihr (die Leute die keine NPU benötigen) können ja Cloud Dienste nehmen, ich nutze dann lieber die lokalen.
 
Haldi schrieb:
Kennst du gerade ne gute Lösung für RAG? hätten da so 2-3000 PDFs mit Bestellungen, Rechnungen, Auftragsbestätigungen die Auftragsbezogen abgelegt sind.
Da nen tolled DMS das man befragen kann "Wann wurde Artikel xyz zuletzt gekauft und bei wem für wie teuer" wäre schon recht cool.
Leider nicht mein Usecase. Das, was ich nebenbei an RAG mache, da reicht LMStudio. Aber mein primärer Usecase ist Agents zur Datenklassifizierung bauen (neben dem Zeugs, was man halt einfach so im Alltag macht). Woran klemmt es bei dir? Am richtigen Chunking, oder ist tatsächlich die Dateienmenge ein Problem mit ner lokalen ChromaDB oder ähnlichem?
 
  • Gefällt mir
Reaktionen: Haldi
Haldi schrieb:
Mit nem AMD Ryzen AI Max 395+ und 128GB LPDDR5 wovon 96gb für die GPU partitioniert wurden kommen da rund 3-4 Token/sec raus, laut STH.
Die Werte kann ich bestätigen.
Für so Spielereien wie Silly Tavern funktioniert es aber super. Es ist schnell genug, dass man mitlesen kann. Klar, schneller wäre besser (vor allem bei Kontextwechsel), aber dafür müsste ich mir die RTX Pro 6000 für 11.000€ kaufen, was mir dann fürs Herumspielen doch zu viel ist.
 
  • Gefällt mir
Reaktionen: Haldi
Zurück
Oben