News Massive Preissteigerungen: RAM von DDR3 bis DDR5 sowie GDDR6 soll bis zu 45 % teurer werden

MoinWoll schrieb:
Laut ChatGPT müsste ich mit 32GB VRAM und 192GB RAM die größte Version von DeepSeek R1 0528 mit IQ2_XXS Quant lokal nutzen können. Bisher weigert sich das gute Modell allerdings noch.
Ich glaub da würde ich bei ChatGPT nochmal nachhaken, denn ich hege große Zweifel, dass du das tatsächlich hinbekommst. :D

Mit 217GB wäre es schon spannend die Menge als reine Datei in den Speicher zu bekommen, denn mit OS und Schnickschnack drumherum passt da bei verfügbaren 224GB kaum ein Haar zwischen. Und wenn du das Modell dann tatsächlich als solches lädst, hast du auch immer eine ordentliche Menge Overhead zu berücksichtigen, die das mit den 224GB ziemlich unrealistisch machen.

Wenn ich bspw. ein 70B-Q4 Modell mit 39,5GB GGUF lade, dann hab ich bei jeweils 256/4K/8K/16K Kontext 41,6GB/43,5GB/44,8GB/48,5GB im Speicher, heißt selbst in der Miniaturversion mehr als 5% oben drauf - was aus 217GB direkt 228,5GB machen würde.

Wenn du es trotzdem weiter versuchen willst, dann am besten mit einem Headless Linux und "Ein Satz - Ein Kontext"-Config, aber ich würde mir selbst da keine allzu großen Hoffnungen machen. Aber falls du es doch schaffst, dann lass es mich auf jeden Fall wissen! :D
 
  • Gefällt mir
Reaktionen: wagga
MountWalker schrieb:
@testwurst200

Das mit dem unmöglichen Gebrauchtmarkt ist ja seit der Pandemie so. Mainboard fünf Jahre in Betrieb gewesen, Startgebot 10% unter Neupreis oder nur "Sofortkaufen" zum Neupreis und dann wird nichtmal erwähnt, ob das I/O Shield dabei ist oder das ganze in einen zu kleinen Karton gestopft wird, damit es beim Transport zerbiegt und irgendwelche Leitungen auf der Platine zerknacken - letzteres hatte ich schon als Kunde erlebt... Der Gebrasuchtmarkt ist seit COVID19 leider tot.
Mein Asus z97-A Board ist am 22.12.2022 kaputt gegangen wahrscheinlich BIOS Chip, wollte an dem Tag gar nicht mehr booten 2 Wochen vorher fing es schon an das die Bootzeit täglich um 15 Sekunden anstieg.
Am 21.12.2022 dauerte der Startvorgang ins Windows 10 15 Minuten. Sah mich bei Ebay nach z-97 Boards um egal welcher Hersteller es gab nur gebrauchte defekte boards für Neupreis oder 10-25% über Neupreis.
Ich zahlte ca. 120 Euro fürs Board 2014 die wollten für defekte Boards 150-160 Euro. Ich kaufte dann alles neu.
Liebe Grüße.
 
Araska schrieb:
Mein Asrock X300 läßt fragen, welches Problem bei Mini-PCs besteht, was das Stecken von RAM angeht...
Nicht alle Mini PCs sind steckbar. Mein Strix Halo Mini PC hat verlöteteten RAM.
 
Bright0001 schrieb:
Mit 217GB wäre es schon spannend die Menge als reine Datei in den Speicher zu bekommen, denn mit OS und Schnickschnack drumherum passt da bei verfügbaren 224GB kaum ein Haar zwischen. Und wenn du das Modell dann tatsächlich als solches lädst, hast du auch immer eine ordentliche Menge Overhead zu berücksichtigen, die das mit den 224GB ziemlich unrealistisch machen.
Genau das habe ich ChatGPT auch mehrmals gesagt, aber er bestand darauf, dass es funktioniert. Funktioniert aber leider echt nicht, ich habs dann irgendwann aufgegeben.

Edit: @Bright0001: ChatGPT hatte recht. Mein RAM war offenbar trotz ausbleibender Crashes doch instabil bei 6000MHz. Habe ihn jetzt auf 5600MHz reduziert und das 217GB Modell läuft nun wirklich auf meinem System bei ~100% VRAM Belegung und 97% RAM Belegung. Antworten werden etwa mit 2 Token/s generiert. Der Tipp mit dem instabilen RAM kam übrigens auch von ChatGPT.

1752236929876.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Bright0001
MoinWoll schrieb:
Genau das habe ich ChatGPT auch mehrmals gesagt, aber er bestand darauf, dass es funktioniert.
Du hast ein LLM gefragt, ob es etwas über seine eigenen Spezifikationen weiß? Das ist ein bisschen so, als würdest du einen Papagei mehrfach fragen, ob er Nüsse mag und als Antwort: "Nüsse, Nüsse..." bekommen. Statt dem RAM hätte ich mir nen Vogel gekauft ;).
 
@Boimler: Nein, es ging ja um ein anderes LLM (die DeepSeek R1 0528 Version von Unsloth), zu welchem es eine gute Dokumentation und zahlreiche GitHub-Posts gibt, die ChatGPT ja auch abrufen und durchforsten kann. Bisher hat mir ChatGPT auch immer gut weitergeholfen, wenn es um lokale LLM Spielereihen ging, aber dieses Mal hat ChatGPT die Fähigkeiten meines Rechners evtl. überschätzt. Ggf. habe auch ich irgendwas falsch gemacht, in der Dokumentation von Unsloth steht nämlich auch drin, dass die kleinste Version (~160GB) ab 64GB RAM lauffähig ist. Vermutlich wird dann eben alles was nicht in den RAM passt auf die SSD ausgelagert (mit heftigen Leistungseinbußen) und ich vermute, dass genau das bei mir aus irgendeinem Grund schief läuft.
 
Zuletzt bearbeitet:
Ist halt immer eine Kosten/Nutzen Rechnung. Und da KI sehr speicherintensiv ist, sind lokale Modelle schnell limitiert. Wenn RAM jetzt noch teurer wird, muss man sich schon fragen, ob der Output unbedingt eine lokale Berechnung erfordert oder nicht auch online abgewickelt werden kann.
 
@Boimler: Den RAM habe ich ja bereits. Mein eigentliches Ziel ist ein möglichst leistungsfähiges, lokal laufendes LLM mit einem Agenten-Framework (gibt bereits einige frei verfügbare) zu kombinieren, sodass ich z. B. automatisiert Dokumente und Daten analysieren und aufbereiten und Software entwickeln lassen kann, ohne ständig Error-Logs und neuen Code hin und her kopieren zu müssen. Google oder OpenAI Zugriff auf mein System inkl. Daten zu geben, und sei es nur in einer VM, ist mir dann doch zu viel des Guten. Darüber hinaus zahlt man für die Nutzung der entsprechenden APIs so viel, dass es dann doch deutlich günstiger ist sich einmal einen Batzen RAM zuzulegen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Bright0001
MoinWoll schrieb:
Habe ihn jetzt auf 5600MHz reduziert und das 217GiB (GB war falsch) Modell läuft nun wirklich auf meinem System bei ~100% VRAM Belegung und 97% RAM Belegung.
Andersherum; 217GB ist schon richtig, es sind dann halt ~202GiB unter Windows, die aber auch als GB angezeigt werden.

Aber zugegeben noch nie daran gedacht - Erklärt aber, warum "sollte eigentlich nicht laufen" Modelle manchmal trotzdem liefen. :D

Und ändert natürlich auch deine Situation, zwischen 202 und 224 ist dann wieder ordentlich Puffer drin.

MoinWoll schrieb:
Mein eigentliches Ziel ist ein möglichst leistungsfähiges, lokal laufendes LLM mit einem Agenten-Framework (gibt bereits einige frei verfügbare) zu kombinieren, sodass ich z. B. automatisiert Dokumente und Daten analysieren und aufbereiten und Software entwickeln lassen kann, ohne ständig Error-Logs und neuen Code hin und her kopieren zu müssen.
Spannend, auch da gibt es viele Parallelen; Schreibe gerade an einer umfassenden Lösung, um alle Dateien auf dem Rechner indiziert und als Wissen für eine LLM verfügbar zu haben. Einerseits für die klassische semantischen Dateiensuche, andererseits um eine große Menge an Basiscode auch richtig verwertbar zu machen.

Bei meiner letzten Anstellung hatte ich bestimmt >25 Services/Projekte auf dem Rechner, davon viele in weiteren Ausbaustufen, Forks und Customlösungen für einzelne Kunden. Es kam dabei häufig vor, dass ich wusste, dass ein Problem schon sicherlich irgendwo gelöst wurde, aber es gab halt keinen sinnvollen Weg, entsprechende Stellen dann auch tatsächlich zu finden.

Oder ein anderes Beispiel: Ein absolut riesiges Modul, der Monolith unter den Monolithen, mit vielen Implementierungen doppelt und dreifach drin, weil der damalige Hauptentwickler auf YAGNI nur mit "Gesundheit" reagiert hat - zumindest stell ich mir das so vor. Den ganzen Rotz einfach in eine LLM schmeißen zu können, und dann Fragen zu stellen, war ein Traum - aber selbst ist der Mann, also macht man sich nun halt seine eigenen Träume wahr. :D

Boimler schrieb:
Ist halt immer eine Kosten/Nutzen Rechnung. Und da KI sehr speicherintensiv ist, sind lokale Modelle schnell limitiert. Wenn RAM jetzt noch teurer wird, muss man sich schon fragen, ob der Output unbedingt eine lokale Berechnung erfordert oder nicht auch online abgewickelt werden kann.
Der Hauptvorteil ist eben die Tatsache, dass man keine Daten an Microsoft, OpenAI, Claude usw. schicken muss, ob nun sensibel oder nicht, was die praktische Anwendung im beruflichen Kontext massiv erleichtert - und mich auch im Bezug auf meine eigenen, private Daten besser schlafen lässt.

Eigene Cloud-Server/Instanzen wollen am Ende dann ja trotzdem noch gepflegt und bezahlt werden - da fühlt sich ein einmaliges Investment in eine Stange RAM deutlich schmerzfreier und einfacher an.
 
  • Gefällt mir
Reaktionen: MoinWoll
Mal sehen, ob die Preissteigerung wirklich in dieser Breite auf den Markt durchschlagen werden. Die massiven DDR5 Preissteigerungen wurden ja schon Ende 2024 vorhergesagt und sind nicht eingetreten. Bei älteren auslaufenden Standards mag das anders aussehen.
 
Bright0001 schrieb:
Andersherum; 217GB ist schon richtig, es sind dann halt ~202GiB unter Windows, die aber auch als GB angezeigt werden.
Jopp, hast recht.
 
Bright0001 schrieb:
Der Hauptvorteil ist eben die Tatsache, dass man keine Daten an Microsoft, OpenAI, Claude usw. schicken muss, ob nun sensibel oder nicht, was die praktische Anwendung im beruflichen Kontext massiv erleichtert - und mich auch im Bezug auf meine eigenen, private Daten besser schlafen lässt.
Wenn du berufliche Daten auf deinem privaten Rechner bearbeitest, liegt das Risiko halt bei dir und nicht beim Dienstleister. Ich weiß nicht, ob das unbedingt besser ist. Dein Arbeitgeber könnte die entsprechende Umgebung ja auch selbst bereitstellen, wenn KI im Unternehmen eingesetzt werden soll.
Wenn du selbstständig bist, kannst du es hoffentlich irgendwie absetzen. Aber ich bezweifle, dass die Kostenrechnung auf Dauer aufgeht, denn neben der Investition hast du auch hohe Betriebskosten (Strom) im Vergleich zum Onlinedienst. Finde ich jedenfalls schwer zu kalkulieren.
 
Boimler schrieb:
Wenn du berufliche Daten auf deinem privaten Rechner bearbeitest, liegt das Risiko halt bei dir und nicht beim Dienstleister.
Nein, ich bearbeite keine beruflichen Daten auf meinem privaten Rechner - aber wenn ich mein Projekt fertig habe, dann werde ich es auch auf beruflicher Hardware einsetzen können, weil nirgends nach Hause telefoniert wird.

Boimler schrieb:
Dein Arbeitgeber könnte die entsprechende Umgebung ja auch selbst bereitstellen, wenn KI im Unternehmen eingesetzt werden soll.
Deinen Optimismus hätte ich gerne. :lol:

Boimler schrieb:
Aber ich bezweifle, dass die Kostenrechnung auf Dauer aufgeht, denn neben der Investition hast du auch hohe Betriebskosten (Strom) im Vergleich zum Onlinedienst. Finde ich jedenfalls schwer zu kalkulieren.
Die Kostenrechnung geht vorne und hinten nicht auf - aber halt andersherum. Schau dir mal bspw. die AWS Preise an, für Instanzen mit 192GB RAM:
2025-07-13_16h41_07.png


Da bist du im günstigsten Fall bei 44$ pro 24h. Und wenn wir sagen; Hey, wir committen uns auf ein Jahr (~33% Rabatt) und lassen die Maschine nur tagsüber laufen (12h), dann sind wir immer noch bei rund 15$ pro Tag, oder 450$ pro Monat. Auf die kommen dann aber noch Speicherkosten dazu ("EBS Only"), für ne SSD sinds rund 10 cent pro GB pro Monat, also für 1TB nochmal rund 100$ oben drauf. Je nach Netzwerknutzung müsste man die Kosten dafür ebenfalls reinrechnen, aber ich glaub der grundlegende Gedanke ist klar: Speicherhungrige Prozesse in die Cloud zu schieben ist keine Sparfuchsmethode, sondern purer Luxus, für Leute/Unternehmen die keine eigene Hardware halten und pflegen möchten.

(Die folgende Aussage ist nur von geringer Aussagekraft, da ich mich soweit es geht von Infrastruktur fernhalte, aber dennoch: ) Ich habe noch nie in meinem Leben einen Fall gesehen, bei dem eine Cloud-Lösung schwarz-auf-weiß günstiger war/wäre als OnPremise Hardware. Wirklich noch nie.
 
Zurück
Oben