• ComputerBase erhält eine Provision für Käufe über eBay-Links.

GPU für KI bei alten PC

Tourniquet

Lt. Junior Grade
Registriert
Juni 2008
Beiträge
270
1. Wie viel Geld bist du bereit auszugeben?
400€

2. Möchtest du mit der Grafikkarte spielen?
  • Lokale KI, schön wäre ein 20b - 27b Modell nutzen zu können.
3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
Ollama

5. Nenne uns bitte deine aktuelle/bisherige Hardware:
  • Mainboard: ASRock Fatal1ty Z68 Professional Gen3
    CPU: Intel i7 2600S
    Netzteil: Enermax 750W
    16GB DDR3
Heya, also wie man an den Specs sieht ist mein Gerät nicht mehr das jüngste ^^. Ich habe mir gedacht, dass ich es langsam aber sicher upgrade. Da aber aktuell RAM preise ja so extrem sind, hab ich eigentlich gedacht, dass ich mit der GPU starten könnte?

Ich bin mir bewusst dass die GPU via PCIe gedrosselt wird. Jetzt ist eben die Frage wie sehr? Also macht es hier eigentlich überhaupt Sinn die GPU zu nutzen? Ich kann es absolut gar nicht einschätzen wie gut / schlecht die Performance sein würde.

Aktuell nutze ich für KI Anwendungen ein Surface Book 3 mit Nvidia GeForce GTX 1660 Ti Max-Q (6 GB GDDR6).

Vielen Dank im Voraus :)
 
Eine RTX 5060 Ti mit 16 GB kostet aber mehr, oder eine gebrauchte 4060 Ti mit 16 GB. Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: PapaWo und Aduasen
Unter 24 GB VRAM bekommt du mit >20B Modellen kein brauchbaren Ergebnisse. Die Qants unter Q4 lohnen sich nicht. Und der Kontext muss ja auch noch ins VRAM..
 
Tourniquet schrieb:
schön wäre ein 20b - 27b Modell nutzen zu können.
Welche denn? GPT-OSS 20B würde mit 12GB noch in 16GB reinpassen, aber Qwen3.6 27B ist bei 4Bit Quantisierung schon 17GB groß.
 
Also wäre dann erst recht nur eine Grafikkarte mit voller 16fach PCIe-Anbindung denkbar. Also KEINE RTX5060 !
 
Die Grundplattform stimmt 0 für das vorhaben. Rasperry Pi 5 16GB + Raspberry Pi AI HAT+ 2, 40 TOPS, Hailo 10H Accelerator. Damit kann man QWEN LLM anständig betreiben.
 
Portal501 schrieb:
Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.
Das spielt keine Rolle, sobald das Modell im RAM der Grafikkarte ist. Das dauert mit PCIe 2.0 dann halt nur etwas länger, kein Drama. 16GB sehe ich im Grund schon als gesetzt an. Wenn du mit etwas mehr Softwarebastelei und etwas weniger token/s leben kannst, dann ginge es auch mit Intel oder AMD Grafikkarten. Ansonsten musst du imho das Budget für eine 5060ti mit 16GB anheben.
 
  • Gefällt mir
Reaktionen: JumpingCat
Technisch sind die Karten abwärtskompatibel. Ob es so der tolle Wurf ist, mit x8 pcie-2.0 zu arbeiten, das wissen andere besser. Das Thema x8 betrifft sowohl die 4060, als auch die 5060.

Eine 5070ti wiederum ist deutlich über Budget. Eine gebrauchte 4070 Ti Super ebenfalls. Eine RTX 3090 auch.

Ein i7 3770k ist überraschend teuer. Über 40 Euro. Wobei der i7 2600 natürlich einen Verkaufserlös brächte.
https://www.ebay.de/sch/i.html?_nkw=i7+3770k&_sacat=0&_from=R40&_trksid=p4624852.m570.l1313
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Holzinternet
Brauchst du zwingend Nvidia? Falls nicht, AMD 9060 XT mit 16 GB Speicher. Die hat auch x16 Anbindung.
 
Zwirbelkatz schrieb:
Ob es so der tolle Wurf ist, mit x8 pcie-2.0 zu arbeiten, das wissen andere besser.
Ist es natürlich nicht, aber mW. betrifft das nur das Laden des Modells ins RAM der Grafikkarte. Und da spielt dann ja auch die SSD eine Rolle, PCie 2.0 x8 ist immer noch viermal schneller als eine SATA SSD, die wird also limitieren. Wenn das Modell dann einmal geladen ist spielt das keine Rolle mehr, man darf nur keine zu großen Modelle nehmen, damit nicht ins System RAM ausgelagert wird, dann bricht die Performance total ein. Oder habe ich da einen Denkfehler?
 
Das betrifft vor allem das Laden des Modells. Dabei kann vorübergehend mehr Speicher benötigt werden, als das Modell im laufenden Betrieb später tatsächlich belegt. Die Daten landen zunächst im RAM und können bei Bedarf ins Pagefile ausgelagert werden. Dieses sollte daher idealerweise auf einer schnellen M.2-SSD liegen – allerdings eher als Sicherheitsnetz, nicht als echte Performance-Lösung eventuell kann man so gerade noch eben ein Modell laden ohne zu crashen.

Quantisierungen sind grundsätzlich eine gute Idee, verändern Modelle aber teilweise deutlich. Es gibt gute und schlechte Quantisierungen, deshalb hilft hier letztlich nur Testen. Je nach Umgebung werden außerdem mehrere Speicherbereiche gleichzeitig genutzt: RAM, VRAM und gegebenenfalls das Pagefile.

RAM ist besonders wichtig, wenn Modelle gewechselt, ausgelagert oder zwischengespeichert werden müssen – etwa in Workflows mit mehreren KI-Modellen, die nacheinander zusammenarbeiten. Es kann auch vorkommen, dass eine KI über CPU und RAM läuft, während eine andere gleichzeitig GPU und VRAM nutzt. Als grobe Faustregel ist mindestens so viel RAM wie VRAM sinnvoll, komfortabler ist eher das Doppelte. So lassen sich ähnlich große Modelle schneller wechseln oder zwischenspeichern. Das bleibt aber stark vom konkreten Anwendungsfall abhängig.

Für Inferenz sollten es meiner Einschätzung nach mindestens 12 GB VRAM sein. Ab etwa 13 Milliarden Parametern werden Sprachmodelle in vielen Fällen erst richtig brauchbar. Es gibt zwar gute kleinere Modelle, diese sind aber eher die Ausnahme und meist stärker vom jeweiligen Spezialfall abhängig.

Für Content Generation, etwa Bilderzeugung, kann teilweise auch weniger VRAM ausreichen, da viele Modelle kleiner sind (2b, etc). Der tatsächliche Bedarf hängt jedoch stark vom Modell, der Auflösung und Batch ab.

Das meiste Tooling im lokalen KI-Bereich ist aktuell am besten für NVIDIA/CUDA optimiert. Andere Plattformen funktionieren zwar ebenfalls, sind aber in der Modellauswahl, Performance und beim Ökosystem oft eingeschränkter und benötigen häufiger spezielle oder weniger verbreitete Lösungen DIE UNTER PYTHON WEGEN DEN ABHÄNGIGKEITEN VERDAMMT SCHWER ZUM LAUFEN ZU BRINGEN SIND. Habe ich geschrien? Ja, habe ich. Ich habe jetzt auch eine Nvidia GPU.

Eine weitere Möglichkeit ist Apple Unified Memory. Dort steht oft sehr viel gemeinsamer Speicher zur Verfügung, teilweise genug, um sehr große lokale Modelle zu laden. Allerdings ist diese Lösung in der Regel langsamer als dedizierter GPU-VRAM und benötigt ebenfalls speziell angepasste Compute-Backends.

4060er mit 16GB Vram? Keine Ahnung wie die Preise gerade explodieren.
 
Zuletzt bearbeitet:
Portal501 schrieb:
Da du aber nur PCIe 2.0 zur Verfügung hast, lohnt es sich nicht.
Nicht mega relevant, wenn nur ein Modell auf die gpu soll. Das braucht nur beim Start einmal etwas Bandbreite, aber da reichen auch 2 PCIe 2 lanes.


Ich würde mal noch die rtx 3060 mit 12gb vorschlagen.
 
Zuletzt bearbeitet:
Tourniquet schrieb:
1. Wie viel Geld bist du bereit auszugeben?
400€

Aktuell nutze ich für KI Anwendungen ein Surface Book 3 mit Nvidia GeForce GTX 1660 Ti Max-Q (6 GB GDDR6).
Lesen ist bei den meisten hier irgendwie nicht die größte Stärke.

Wenn der TE momentan mit der zitierten Hardware experimentiert, die nun wirklich nicht super leistungsstark ist, dann muss man hier nicht wieder damit anfangen mit "16GB sind nicht genug" und das Thema in Richtung einer tausende Euro Investition lenken, weil alles andere "unbrauchbar" wäre. Ihr müsst eure Ansprüche nicht auf die Ansprüche des TE adaptieren, welcher möglicherweise auch mit längeren Verarbeitungszeiten oder anderen Einschränkungen leben kann, solange die Gesamtperformance des aktuell genutzten "Systems" übertroffen wird. Zudem interpretiere ich die genannten Zielmodelle eher als "Wunschvorstellung", und nicht als feste Größe, die es ums Verrecken zu erreichen gilt.

Vor allem dann nicht, wenn der TE ein Budget von 400 Euro hat.

Das ist wieder typisch ConsumerBase und in jedem, wirklich jedem Thread dieser Art das gleiche Thema. Ich bin überrascht, dass noch niemand dem TE eine RTX Pro 6000 angeschnackt hat. Oder am besten gleich ne H200 NVL... ach was rede ich da, eine DGX B300 ist noch nicht genug! Kostet nur 350k-400k. Absolutes Schnäppchen.
 
  • Gefällt mir
Reaktionen: rapanui und madmax2010
Das ist ja alles richtig aber Ki steht und fällt mir VRam - man kann jetzt eine Karte mit 12 oder gar 8GB kaufen und das Budget einhalten oder eine mit 16GB etwas überschreiten und im Endeffekt besser gewappnet sein. Im Grunde genommen sollte man sich so viel VRam unter den Nagel reißen wie gerade eben möglich - das ist keine Nachlässigkeit sondern ein gut gemeinter Ratschlag.
 
Erstmal vielen Dank für die ganzen Antworten.

@Garmor
Speziell Qwen 3.6 27b hatte ich im Auge.

@HerrRossi
Bedeutet dann, sobald das Modell erstmal im Speicher der GPU geladen wurde, dass sie dann die volle Rechenpower nutzen kann?

Aus dem Grund den @swage schon genannt hat, kommt für mich wirklich nur NVIDIA in Frage.

Was ich absolut gar nicht einschätzen kann in dem ganzen zusammenhang ist eben auch: Reicht mein Netzteil für die genannten Grafikkarten.

Wie sieht's denn mit den unterschiedlichen Reihen der GPUs aus?

Ich kann absolut gar nicht einschätzen wie sich eine RTX 5060 Ti 16GB zu einer 4060 Ti 16GB verhalten würde.

Da würde ich schon eher eine GPU mit mehr vRAM und schlechterer Leistung einer mit weniger vRAM vorziehen.

Wie ja auch richtig gesagt wurde, ich muss ja nicht nur das Model geladen werden sondern auch der Kontext.

Es geht sich hier jetzt nicht um eine Maschine die dann direkt mit idk 120+ token/s oderso daher kommen muss. Es sollte aber halt eben 'nutzbar' sein.

Gerade weil der PC an sich ja nicht wirklich dafür geeignet ist, denke ich dass es um so wichtiger ist wenn dann sicher zu stellen, dass nichts ausgelagert wird?

Aber wie würde es dann ggf mit sowas wie 2 Karten mit jeweils 8GB oderso aussehen? oder funktioniert das in diesem Szenario gar nicht?
 
4060 ti und 5060 ti sind ähnlich schnell. Die RTX 5000er-Serie war, was die Steigerung der Rohleistung anbelangt, sehr dürftig.
https://www.pcgameshardware.de/Graf...ls/Wie-schnell-ist-meine-Grafikkarte-1448735/

Eine 3080 hat auch nur 12GB Speicher. Dafür säuft sie viel und es ist nicht sooo unüblich, dass diese Karten mindestens neue Wärmeleitpaste und Co benötigen; einige wenige sterben bereits. Die 12GB gibts auch auf einer RTX 3060.

Tourniquet schrieb:
Wie ja auch richtig gesagt wurde, ich muss ja nicht nur das Model geladen werden sondern auch der Kontext.
Vielleicht hast du Glück und einer kommt mit seiner Karte bei dir vorbei.
Liste der Helfer für den PC-Zusammenbau

Tourniquet schrieb:
Aber wie würde es dann ggf mit sowas wie 2 Karten mit jeweils 8GB oderso aussehen? oder funktioniert das in diesem Szenario gar nicht?
Wenn das ginge, wären Karten mit viel Speicher nicht absichtlich und exorbitant teuer.


Tourniquet schrieb:
Reicht mein Netzteil für die genannten Grafikkarten.
Mach gerne mal ein Foto vom Typenschild. So oder so: Es ist 15 Jahre alt; jedenfalls ist dein System von ca. 2011.
 
Sapphire Forum
Zurück
Oben