Lokale KI mit unbegrenzter Nutzung?

Als Referenz eins der top 3 Modelle überhaupt angeben.
Könnte ich nicht mein eigenes Auto bauen? Referenz wäre ein McLaren F1

Grundsätzlich geht einiges beim lokalen betrieb von LLMs! Besonders die neueren MoE Gemma4 und Qwen3.6 sind richtig cool!

Aber wenn du lokal LLMs einsetzt, solltest du dich von der Vorstellung von Opus4.8 verabschieden. Du müsstest eher mehrere LLMs speziell je nach Einsatzzweck verwenden.

Bei Agentischem arbeiten braucht aber zum Beispiel der Kontext schnell richtig Platz im RAM. Da bin ich lokal noch nicht glücklich geworden.
 
  • Gefällt mir
Reaktionen: BeBur und PrussianHeathen
Nein, dein System ist dafür zu schwach. Einen einfachen Chatbot kannst du laufen lassen, für richtig Leistung Rechne mal so mit 100–200.000€ für die Hardware.
 
  • Gefällt mir
Reaktionen: madmax2010
Das Problem ist, dass der Ganze Datensatz in den Vram passen muss, dann performt das schon ordentlich, ansonsten ist das mit 1 Wort in einigen Sekunden zu langsam. Es gibt einige kleine Modelle für den PC die du einfach installieren kannst, und z.B. mit OpenWebUi darauf zugreifen.

Aber beachte, dass so etwas eher für die Lokale Dateisuche geeignet ist.?. "Intlligent" wirkt das nichtmal ansatzweise.

Hab mal testweise ein paar Modelle versucht, also fragen kann man da gar nix:
Gürtelrose (entzündliche Krankheit der Haut), wird zu einer Eileiterentzündung die man Operativ behandeln muss.
Für eine Simple Audio-Frequenzweiche bräuchte man Spulen in Traffogrösse.
Und wenn ein Modell ein (schul) Arbeitsblatt erstellt, klingt das schonmal komisch. Wenn man das aber (heißer Tipp aus dem Netz) ein anderes Modell Korrigieren lässt, wird daraus ein fast Wissenschaftlicher Fragebogen zu einem (Hochwissenschaftlichen) Thema wovon nie die Rede war.

Also wir haben tränen Gelacht, aber in dieser Form ist das nur Amüsant und keine Hilfe, eher reine Zeit Verschwendung.
 
Also du kannst dir GLM 5.2 auf die SSD legen und dann würde das technisch gesehen schon funktionieren.
Du hast aber wahrscheinlich keine Vorstellung davon, wie langsam das ist. Für jedes Token müssen sämtliche Parameter herangezogen (= in VRAM oder RAM geladen) werden.
Opus Qualität ist es dann auch noch nicht ganz.
 
  • Gefällt mir
Reaktionen: madmax2010
@Enurian bei 10gb/s ist das dann wohl 1 Token pro 2-5 Minuten :D
 
  • Gefällt mir
Reaktionen: konkretor und JumpingCat
Schmalhans93 schrieb:
....Wenn es kostenlos ist warte ich auch 20-30 Minuten auf eine geniale Antwort.
Aber das Ergebnis muss vergleichbar gut mit Opus / Fable / GPT 5.5 usw. sein.
Rickmer schrieb:
Du hast dich echt null ins Thema eingelesen, oder?
...ehm yep^^

"lol" ?!

Dir ist schon klar das ChatGPT, Claude auf Maschinen laufen.... die sowas nutzen ;

jooo.jpg
jo x2.jpg


..und nicht eine davon oder so... sondern 100.000 !!! und mehr !!

Klar kann man zuhause auch n Modell laufen lassen - teilweise gehts ja gar nicht um die Rechenpower - sondern um den Zugriff ....auf die Datenbank ! - Der Schlüssel von OpenAi & Co - das illegale downloaden des gesamten internets - inklusive copyright geschützter Inhalte...

Nur um dann ne Frage zu beantworten wie "hey Siri - wie weit ist der Mond entfernt ?" - dazu braucht man Daten & Daten & Daten - mittlerweile in Yotta-Byte ?! ^^

Irgendwo bringen einem dann zuhause auch 10x H100 irgendwie wenig, wenn man den nix zu futtern geben kann - da kommt dann kein "magisch ChatGPT 5.5 oder CLaude 4.8" raus - was einem mal umsonst ne milliarde Zeilencode automatisch umsonst programmiert

Fujiyama schrieb:
Dann brauchst du ein sehr großen und sehr teueren PC um die Leistung eines Rechenzentrums zu erhalten.
"PC" ... :)

"ein sehr großer PC" ....

ChatGPT Image 3. Juli 2026, 13_35_40.png


Achja - sshice- """ Ki """ Welt - als wenn das wie Data von Star-Trek ist^^
[is nur marketing fck-name- Photoshop autofiller gibs seit 2010, Apple siri 2011 ?!, Google-Reverse Image-search auch seit ewigkeiten - als wenn das "Ai" war]
Alles was die jetzige "Ai" kann&macht is irgendwie nur ne Sprachausgabe von gescanntem Wikipedia...
+ ok, sowas wie Claude, das is schon nicht uncool, aber auch irgendwie nur n Autofiller - blah^^

Ne sonst sieht es ja eher so aus bei OpenAi, Grok, Meta, Apple sonstwem :
https://www.servethehome.com/inside...luster-supermicro-helped-build-for-elon-musk/
Da gibs kein PC für Zuhause, der das "ersetzt"
 
  • Gefällt mir
Reaktionen: AleksZ86
Ich hab zu Hause einen gebrauchten Dell T630 Poweredge Server von Kleinanzeigen geschossen. Konnte über die Firma noch an zwei Quadro P5000 kommen, die zusammen 32GB VRAM haben. Darauf läuft unter Proxmox eine Ollama VM (GPU Passtrough).
Als Modell Gemma4:31b.
Bin sehr zufrieden mit der Qualität und Performance und es reicht mir eigentlich für alles was ich so mache. Nutze es schon sehr viel.

Also falls du den Platz hast und der Stromverbrauch nicht so wichtig ist, wäre gebrauchte Server Hardware ein guter Anfang für lokale LLMs (Wenn man den nächsten Schritt nach Gaming-PC gehen will).
Ich habe eine PV auf dem Dach, daher ist mir der Strom schnuppe.
 
  • Gefällt mir
Reaktionen: Der_Dicke82 und BeBur
Frontier Modell auf einer Lokalen Maschine.

Make me liquid Jamie :D Gugal me ^^
 
  • Gefällt mir
Reaktionen: madmax2010
freekymachine schrieb:
Klar kann man zuhause auch n Modell laufen lassen - teilweise gehts ja gar nicht um die Rechenpower - sondern um den Zugriff ....auf die Datenbank ! - Der Schlüssel von OpenAi & Co - das illegale downloaden des gesamten internets - inklusive copyright geschützter Inhalte...

Nur um dann ne Frage zu beantworten wie "hey Siri - wie weit ist der Mond entfernt ?" - dazu braucht man Daten & Daten & Daten - mittlerweile in Yotta-Byte ?! ^^

Irgendwo bringen einem dann zuhause auch 10x H100 irgendwie wenig, wenn man den nix zu futtern geben kann - da kommt dann kein "magisch ChatGPT 5.5 oder CLaude 4.8" raus - was einem mal umsonst ne milliarde Zeilencode automatisch umsonst programmiert
Mir ist nicht ganz klar, wie ich Deinen Beitrag verstehen soll.
Ich möchte aber klarstellen, dass die Modelle selbst die "Daten" enthalten und grundsätzlich keine weitere Datenbank benötigen. Man kann ein sehr kleines Modell mit z.B. 4GB herunterladen und das kann einem dann z.B. ohne weiteren Zugriff aufs Internet Informationen zu Sehenswürdigkeiten in irgend einem Kaff geben. Viele Informationen sind in so einem Modell dann falsch haluziniert. Aber dennoch weiß es verblüffend viel. Das Training der Modelle erzeugt am Ende im Prinzip einen Datensatz, der das Weltwissen (verlustbehaftet) komprimiert enthält.

Statt über Google Anfragen an Googles petabyte große Datenbanken zu stellen, kann man offline ein wenige Gigabyte großes Modell fragen.
 
  • Gefällt mir
Reaktionen: Rickmer und Backfisch
Haggis schrieb:
Mir ist nicht ganz klar, wie ich Deinen Beitrag verstehen soll.
Mir wars schon zu anstrengend, den Zeichensalat zu entwirren zu versuchen... aber in Zukunft werden wir wohl alle so schreiben müssen, um zu zeigen, dass wir keine KI Bots sind. 🤷‍♂️
 
  • Gefällt mir
Reaktionen: Der_Dicke82 und Haggis
Mit einem ordentlichen Rechner, der vor einem Jahr ca. 1.000 € gekostet hat, bekommst Gemma 4 26B (MoE) und Qwen 3.6 35B (MoE) gut zum Laufen, sofern du 12 bis 16 GB VRAM am Start hast. Bei mir liefert Gemma 4 in der 4-Bit-Quantisierung ca. 25-30 Token/s, was schon sehr brauchbar ist. Qwen 3.6 ist bei etwa 15 Token/s, das passt auch noch. Via OpenHands kannst die mit WSL agentisch ganz gut laufen lassen. Mittels Docker passiert dir oder deinem Rechner da auch nichts.

Die Sprünge bei den kleinen Modellen sind schon enorm. Das kleine Gemma 4 bringt overall etwa die Leistung von Gemini 2.5 Pro von vor einem Jahr. Ziemlich beeindruckend. Für Opus-4.8-Performance wirst noch mindestens bis 2027 warten müssen. Aber das hätte dir vermutlich die Google-AI-Suche auch in drei Sekunden beantworten können.
 
  • Gefällt mir
Reaktionen: ~Rake~ und Der_Dicke82
@-->Er@zor_X<-- 2027 glaub ich nicht das Hardware günstiger wird :) Aber Leistungsstärkere wird kommen sowie bessere Modelle aus dem Bereich TurboQuant.
 
  • Gefällt mir
Reaktionen: WauWauWau und madmax2010
Claude 4.8 lokal - wäre ein Traum! Aber - keine Chance (noch nicht).
Die Frontier Modelle haben Größen von mehreren trillion parameters, die brauchen Terabytes an Speicher - das geht in Richtung UBB / NVSwitch basierter Systeme.

Die reißen im Betrieb dann übrigens gleich die Steckdose mit aus der Wand (~13KW).

1783143596559.png
 
  • Gefällt mir
Reaktionen: BeBur und Kuristina
Zurück
Oben