GPU für KI bei alten PC

Tourniquet · Heute um 02:38

1. Wie viel Geld bist du bereit auszugeben?
400€

2. Möchtest du mit der Grafikkarte spielen?

Lokale KI, schön wäre ein 20b - 27b Modell nutzen zu können.

3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
Ollama

5. Nenne uns bitte deine aktuelle/bisherige Hardware:

Mainboard: ASRock Fatal1ty Z68 Professional Gen3
CPU: Intel i7 2600S
Netzteil: Enermax 750W
16GB DDR3

Heya, also wie man an den Specs sieht ist mein Gerät nicht mehr das jüngste ^^. Ich habe mir gedacht, dass ich es langsam aber sicher upgrade. Da aber aktuell RAM preise ja so extrem sind, hab ich eigentlich gedacht, dass ich mit der GPU starten könnte?

Ich bin mir bewusst dass die GPU via PCIe gedrosselt wird. Jetzt ist eben die Frage wie sehr? Also macht es hier eigentlich überhaupt Sinn die GPU zu nutzen? Ich kann es absolut gar nicht einschätzen wie gut / schlecht die Performance sein würde.

Aktuell nutze ich für KI Anwendungen ein Surface Book 3 mit Nvidia GeForce GTX 1660 Ti Max-Q (6 GB GDDR6).

Vielen Dank im Voraus

Portal501 · Heute um 04:57

Eine RTX 5060 Ti mit 16 GB kostet aber mehr, oder eine gebrauchte 4060 Ti mit 16 GB. Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.

naTmeg · Heute um 07:37

Unter 24 GB VRAM bekommt du mit >20B Modellen kein brauchbaren Ergebnisse. Die Qants unter Q4 lohnen sich nicht. Und der Kontext muss ja auch noch ins VRAM..

Garmor · Heute um 07:38

Tourniquet schrieb:
schön wäre ein 20b - 27b Modell nutzen zu können.

Welche denn? GPT-OSS 20B würde mit 12GB noch in 16GB reinpassen, aber Qwen3.6 27B ist bei 4Bit Quantisierung schon 17GB groß.

jo0 · Heute um 07:51

Portal501 schrieb:
Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.

Das hat PCIe 3.0 https://www.asrock.com/mb/Intel/Fatal1ty Z68 Professional Gen3/index.asp

PapaWo · Heute um 08:12

Also wäre dann erst recht nur eine Grafikkarte mit voller 16fach PCIe-Anbindung denkbar. Also KEINE RTX5060 !

Precide · Heute um 08:15

jo0 schrieb:
Das hat PCIe 3.0 https://www.asrock.com/mb/Intel/Fatal1ty Z68 Professional Gen3/index.asp

Braucht aber ne Ivy Bridge CPU dafür.

chr1zZo · Heute um 08:32

Die Grundplattform stimmt 0 für das vorhaben. Rasperry Pi 5 16GB + Raspberry Pi AI HAT+ 2, 40 TOPS, Hailo 10H Accelerator. Damit kann man QWEN LLM anständig betreiben.

HerrRossi · Heute um 09:11

Portal501 schrieb:
Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.

Das spielt keine Rolle, sobald das Modell im RAM der Grafikkarte ist. Das dauert mit PCIe 2.0 dann halt nur etwas länger, kein Drama. 16GB sehe ich im Grund schon als gesetzt an. Wenn du mit etwas mehr Softwarebastelei und etwas weniger token/s leben kannst, dann ginge es auch mit Intel oder AMD Grafikkarten. Ansonsten musst du imho das Budget für eine 5060ti mit 16GB anheben.

Zwirbelkatz · Heute um 09:40

Technisch sind die Karten abwärtskompatibel. Ob es so der tolle Wurf ist, mit x8 pcie-2.0 zu arbeiten, das wissen andere besser. Das Thema x8 betrifft sowohl die 4060, als auch die 5060.

Eine 5070ti wiederum ist deutlich über Budget. Eine gebrauchte 4070 Ti Super ebenfalls. Eine RTX 3090 auch.

Ein i7 3770k ist überraschend teuer. Über 40 Euro. Wobei der i7 2600 natürlich einen Verkaufserlös brächte.
https://www.ebay.de/sch/i.html?_nkw=i7+3770k&_sacat=0&_from=R40&_trksid=p4624852.m570.l1313

D0m1n4t0r · Heute um 10:51

Brauchst du zwingend Nvidia? Falls nicht, AMD 9060 XT mit 16 GB Speicher. Die hat auch x16 Anbindung.

HerrRossi · Heute um 11:23

Zwirbelkatz schrieb:
Ob es so der tolle Wurf ist, mit x8 pcie-2.0 zu arbeiten, das wissen andere besser.

Ist es natürlich nicht, aber mW. betrifft das nur das Laden des Modells ins RAM der Grafikkarte. Und da spielt dann ja auch die SSD eine Rolle, PCie 2.0 x8 ist immer noch viermal schneller als eine SATA SSD, die wird also limitieren. Wenn das Modell dann einmal geladen ist spielt das keine Rolle mehr, man darf nur keine zu großen Modelle nehmen, damit nicht ins System RAM ausgelagert wird, dann bricht die Performance total ein. Oder habe ich da einen Denkfehler?

swage · Heute um 12:34

Das betrifft vor allem das Laden des Modells. Dabei kann vorübergehend mehr Speicher benötigt werden, als das Modell im laufenden Betrieb später tatsächlich belegt. Die Daten landen zunächst im RAM und können bei Bedarf ins Pagefile ausgelagert werden. Dieses sollte daher idealerweise auf einer schnellen M.2-SSD liegen – allerdings eher als Sicherheitsnetz, nicht als echte Performance-Lösung eventuell kann man so gerade noch eben ein Modell laden ohne zu crashen.

Quantisierungen sind grundsätzlich eine gute Idee, verändern Modelle aber teilweise deutlich. Es gibt gute und schlechte Quantisierungen, deshalb hilft hier letztlich nur Testen. Je nach Umgebung werden außerdem mehrere Speicherbereiche gleichzeitig genutzt: RAM, VRAM und gegebenenfalls das Pagefile.

RAM ist besonders wichtig, wenn Modelle gewechselt, ausgelagert oder zwischengespeichert werden müssen – etwa in Workflows mit mehreren KI-Modellen, die nacheinander zusammenarbeiten. Es kann auch vorkommen, dass eine KI über CPU und RAM läuft, während eine andere gleichzeitig GPU und VRAM nutzt. Als grobe Faustregel ist mindestens so viel RAM wie VRAM sinnvoll, komfortabler ist eher das Doppelte. So lassen sich ähnlich große Modelle schneller wechseln oder zwischenspeichern. Das bleibt aber stark vom konkreten Anwendungsfall abhängig.

Für Inferenz sollten es meiner Einschätzung nach mindestens 12 GB VRAM sein. Ab etwa 13 Milliarden Parametern werden Sprachmodelle in vielen Fällen erst richtig brauchbar. Es gibt zwar gute kleinere Modelle, diese sind aber eher die Ausnahme und meist stärker vom jeweiligen Spezialfall abhängig.

Für Content Generation, etwa Bilderzeugung, kann teilweise auch weniger VRAM ausreichen, da viele Modelle kleiner sind (2b, etc). Der tatsächliche Bedarf hängt jedoch stark vom Modell, der Auflösung und Batch ab.

Das meiste Tooling im lokalen KI-Bereich ist aktuell am besten für NVIDIA/CUDA optimiert. Andere Plattformen funktionieren zwar ebenfalls, sind aber in der Modellauswahl, Performance und beim Ökosystem oft eingeschränkter und benötigen häufiger spezielle oder weniger verbreitete Lösungen DIE UNTER PYTHON WEGEN DEN ABHÄNGIGKEITEN VERDAMMT SCHWER ZUM LAUFEN ZU BRINGEN SIND. Habe ich geschrien? Ja, habe ich. Ich habe jetzt auch eine Nvidia GPU.

Eine weitere Möglichkeit ist Apple Unified Memory. Dort steht oft sehr viel gemeinsamer Speicher zur Verfügung, teilweise genug, um sehr große lokale Modelle zu laden. Allerdings ist diese Lösung in der Regel langsamer als dedizierter GPU-VRAM und benötigt ebenfalls speziell angepasste Compute-Backends.

4060er mit 16GB Vram? Keine Ahnung wie die Preise gerade explodieren.

madmax2010 · Heute um 13:43

Portal501 schrieb:
Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.

Nicht mega relevant, wenn nur ein Modell auf die gpu soll. Das braucht nur beim Start einmal etwas Bandbreite, aber da reichen auch 2 PCIe 2 lanes.

Ich würde mal noch die rtx 3060 mit 12gb vorschlagen.

BDR529 · Heute um 14:10

Tourniquet schrieb:
1. Wie viel Geld bist du bereit auszugeben?
400€

Aktuell nutze ich für KI Anwendungen ein Surface Book 3 mit Nvidia GeForce GTX 1660 Ti Max-Q (6 GB GDDR6).

Lesen ist bei den meisten hier irgendwie nicht die größte Stärke.

Wenn der TE momentan mit der zitierten Hardware experimentiert, die nun wirklich nicht super leistungsstark ist, dann muss man hier nicht wieder damit anfangen mit "16GB sind nicht genug" und das Thema in Richtung einer tausende Euro Investition lenken, weil alles andere "unbrauchbar" wäre. Ihr müsst eure Ansprüche nicht auf die Ansprüche des TE adaptieren, welcher möglicherweise auch mit längeren Verarbeitungszeiten oder anderen Einschränkungen leben kann, solange die Gesamtperformance des aktuell genutzten "Systems" übertroffen wird. Zudem interpretiere ich die genannten Zielmodelle eher als "Wunschvorstellung", und nicht als feste Größe, die es ums Verrecken zu erreichen gilt.

Vor allem dann nicht, wenn der TE ein Budget von 400 Euro hat.

Das ist wieder typisch ConsumerBase und in jedem, wirklich jedem Thread dieser Art das gleiche Thema. Ich bin überrascht, dass noch niemand dem TE eine RTX Pro 6000 angeschnackt hat. Oder am besten gleich ne H200 NVL... ach was rede ich da, eine DGX B300 ist noch nicht genug! Kostet nur 350k-400k. Absolutes Schnäppchen.

swage · Heute um 14:47

Das ist ja alles richtig aber Ki steht und fällt mir VRam - man kann jetzt eine Karte mit 12 oder gar 8GB kaufen und das Budget einhalten oder eine mit 16GB etwas überschreiten und im Endeffekt besser gewappnet sein. Im Grunde genommen sollte man sich so viel VRam unter den Nagel reißen wie gerade eben möglich - das ist keine Nachlässigkeit sondern ein gut gemeinter Ratschlag.

Tourniquet · Heute um 15:12

Erstmal vielen Dank für die ganzen Antworten.

@Garmor
Speziell Qwen 3.6 27b hatte ich im Auge.

@HerrRossi
Bedeutet dann, sobald das Modell erstmal im Speicher der GPU geladen wurde, dass sie dann die volle Rechenpower nutzen kann?

Aus dem Grund den @swage schon genannt hat, kommt für mich wirklich nur NVIDIA in Frage.

Was ich absolut gar nicht einschätzen kann in dem ganzen zusammenhang ist eben auch: Reicht mein Netzteil für die genannten Grafikkarten.

Wie sieht's denn mit den unterschiedlichen Reihen der GPUs aus?

Ich kann absolut gar nicht einschätzen wie sich eine RTX 5060 Ti 16GB zu einer 4060 Ti 16GB verhalten würde.

Da würde ich schon eher eine GPU mit mehr vRAM und schlechterer Leistung einer mit weniger vRAM vorziehen.

Wie ja auch richtig gesagt wurde, ich muss ja nicht nur das Model geladen werden sondern auch der Kontext.

Es geht sich hier jetzt nicht um eine Maschine die dann direkt mit idk 120+ token/s oderso daher kommen muss. Es sollte aber halt eben 'nutzbar' sein.

Gerade weil der PC an sich ja nicht wirklich dafür geeignet ist, denke ich dass es um so wichtiger ist wenn dann sicher zu stellen, dass nichts ausgelagert wird?

Aber wie würde es dann ggf mit sowas wie 2 Karten mit jeweils 8GB oderso aussehen? oder funktioniert das in diesem Szenario gar nicht?

Portal501 · Vor 49 Minuten

Okay, wenn das mit dem PCIe 3.0 keine Probleme darstellt, dann wäre das Angebot vielleicht das richtige für dich. https://ebay.us/m/4PL6BU

Zwirbelkatz · Vor 17 Minuten

4060 ti und 5060 ti sind ähnlich schnell. Die RTX 5000er-Serie war, was die Steigerung der Rohleistung anbelangt, sehr dürftig.
https://www.pcgameshardware.de/Graf...ls/Wie-schnell-ist-meine-Grafikkarte-1448735/

Eine 3080 hat auch nur 12GB Speicher. Dafür säuft sie viel und es ist nicht sooo unüblich, dass diese Karten mindestens neue Wärmeleitpaste und Co benötigen; einige wenige sterben bereits. Die 12GB gibts auch auf einer RTX 3060.

Tourniquet schrieb:
Wie ja auch richtig gesagt wurde, ich muss ja nicht nur das Model geladen werden sondern auch der Kontext.

Vielleicht hast du Glück und einer kommt mit seiner Karte bei dir vorbei.
Liste der Helfer für den PC-Zusammenbau

Tourniquet schrieb:
Aber wie würde es dann ggf mit sowas wie 2 Karten mit jeweils 8GB oderso aussehen? oder funktioniert das in diesem Szenario gar nicht?

Wenn das ginge, wären Karten mit viel Speicher nicht absichtlich und exorbitant teuer.

Tourniquet schrieb:
Reicht mein Netzteil für die genannten Grafikkarten.

Mach gerne mal ein Foto vom Typenschild. So oder so: Es ist 15 Jahre alt; jedenfalls ist dein System von ca. 2011.

GPU für KI bei alten PC

Lt. Junior Grade

Commander

Lt. Junior Grade

Commander

Lieutenant

Lt. Junior Grade

Admiral Pro

Commodore

Fleet Admiral

Fleet Admiral

Rear Admiral

Fleet Admiral

Ensign

Fleet Admiral

Lt. Commander

Ensign

Lt. Junior Grade

Commander

Fleet Admiral

Ähnliche Themen