Lokale KI mit unbegrenzter Nutzung?

Der_Dicke82 · Gestern um 11:58

Als Referenz eins der top 3 Modelle überhaupt angeben.
Könnte ich nicht mein eigenes Auto bauen? Referenz wäre ein McLaren F1

Grundsätzlich geht einiges beim lokalen betrieb von LLMs! Besonders die neueren MoE Gemma4 und Qwen3.6 sind richtig cool!

Aber wenn du lokal LLMs einsetzt, solltest du dich von der Vorstellung von Opus4.8 verabschieden. Du müsstest eher mehrere LLMs speziell je nach Einsatzzweck verwenden.

Bei Agentischem arbeiten braucht aber zum Beispiel der Kontext schnell richtig Platz im RAM. Da bin ich lokal noch nicht glücklich geworden.

Syntax_41 · Gestern um 12:02

Nein, dein System ist dafür zu schwach. Einen einfachen Chatbot kannst du laufen lassen, für richtig Leistung Rechne mal so mit 100–200.000€ für die Hardware.

GokuSS4 · Gestern um 12:06

@Schmalhans93 Nils
https://www.privacy-handbuch.de/handbuch_21k.htm

ich256 · Gestern um 12:44

Das Problem ist, dass der Ganze Datensatz in den Vram passen muss, dann performt das schon ordentlich, ansonsten ist das mit 1 Wort in einigen Sekunden zu langsam. Es gibt einige kleine Modelle für den PC die du einfach installieren kannst, und z.B. mit OpenWebUi darauf zugreifen.

Aber beachte, dass so etwas eher für die Lokale Dateisuche geeignet ist.?. "Intlligent" wirkt das nichtmal ansatzweise.

Hab mal testweise ein paar Modelle versucht, also fragen kann man da gar nix:
Gürtelrose (entzündliche Krankheit der Haut), wird zu einer Eileiterentzündung die man Operativ behandeln muss.
Für eine Simple Audio-Frequenzweiche bräuchte man Spulen in Traffogrösse.
Und wenn ein Modell ein (schul) Arbeitsblatt erstellt, klingt das schonmal komisch. Wenn man das aber (heißer Tipp aus dem Netz) ein anderes Modell Korrigieren lässt, wird daraus ein fast Wissenschaftlicher Fragebogen zu einem (Hochwissenschaftlichen) Thema wovon nie die Rede war.

Also wir haben tränen Gelacht, aber in dieser Form ist das nur Amüsant und keine Hilfe, eher reine Zeit Verschwendung.

Enurian · Gestern um 12:53

Also du kannst dir GLM 5.2 auf die SSD legen und dann würde das technisch gesehen schon funktionieren.
Du hast aber wahrscheinlich keine Vorstellung davon, wie langsam das ist. Für jedes Token müssen sämtliche Parameter herangezogen (= in VRAM oder RAM geladen) werden.
Opus Qualität ist es dann auch noch nicht ganz.

madmax2010 · Gestern um 12:56

@Enurian bei 10gb/s ist das dann wohl 1 Token pro 2-5 Minuten

freekymachine · Gestern um 13:39

Schmalhans93 schrieb:
....Wenn es kostenlos ist warte ich auch 20-30 Minuten auf eine geniale Antwort.
Aber das Ergebnis muss vergleichbar gut mit Opus / Fable / GPT 5.5 usw. sein.

Rickmer schrieb:
Du hast dich echt null ins Thema eingelesen, oder?

...ehm yep^^

"lol" ?!

Dir ist schon klar das ChatGPT, Claude auf Maschinen laufen.... die sowas nutzen ;

..und nicht eine davon oder so... sondern 100.000 !!! und mehr !!

Klar kann man zuhause auch n Modell laufen lassen - teilweise gehts ja gar nicht um die Rechenpower - sondern um den Zugriff ....auf die Datenbank ! - Der Schlüssel von OpenAi & Co - das illegale downloaden des gesamten internets - inklusive copyright geschützter Inhalte...

Nur um dann ne Frage zu beantworten wie "hey Siri - wie weit ist der Mond entfernt ?" - dazu braucht man Daten & Daten & Daten - mittlerweile in Yotta-Byte ?! ^^

Irgendwo bringen einem dann zuhause auch 10x H100 irgendwie wenig, wenn man den nix zu futtern geben kann - da kommt dann kein "magisch ChatGPT 5.5 oder CLaude 4.8" raus - was einem mal umsonst ne milliarde Zeilencode automatisch umsonst programmiert

Fujiyama schrieb:
Dann brauchst du ein sehr großen und sehr teueren PC um die Leistung eines Rechenzentrums zu erhalten.

"PC" ...

"ein sehr großer PC" ....

ChatGPT Image 3. Juli 2026, 13_35_40.png

Achja - sshice- """ Ki """ Welt - als wenn das wie Data von Star-Trek ist^^
[is nur marketing fck-name- Photoshop autofiller gibs seit 2010, Apple siri 2011 ?!, Google-Reverse Image-search auch seit ewigkeiten - als wenn das "Ai" war]
Alles was die jetzige "Ai" kann&macht is irgendwie nur ne Sprachausgabe von gescanntem Wikipedia...
+ ok, sowas wie Claude, das is schon nicht uncool, aber auch irgendwie nur n Autofiller - blah^^

Ne sonst sieht es ja eher so aus bei OpenAi, Grok, Meta, Apple sonstwem :
https://www.servethehome.com/inside...luster-supermicro-helped-build-for-elon-musk/
Da gibs kein PC für Zuhause, der das "ersetzt"

FreshLemon · Gestern um 13:39

Ich hab zu Hause einen gebrauchten Dell T630 Poweredge Server von Kleinanzeigen geschossen. Konnte über die Firma noch an zwei Quadro P5000 kommen, die zusammen 32GB VRAM haben. Darauf läuft unter Proxmox eine Ollama VM (GPU Passtrough).
Als Modell Gemma4:31b.
Bin sehr zufrieden mit der Qualität und Performance und es reicht mir eigentlich für alles was ich so mache. Nutze es schon sehr viel.

Also falls du den Platz hast und der Stromverbrauch nicht so wichtig ist, wäre gebrauchte Server Hardware ein guter Anfang für lokale LLMs (Wenn man den nächsten Schritt nach Gaming-PC gehen will).
Ich habe eine PV auf dem Dach, daher ist mir der Strom schnuppe.

chr1zZo · Gestern um 13:50

Frontier Modell auf einer Lokalen Maschine.

Make me liquid Jamie

Gugal me ^^

Haggis · Gestern um 13:57

freekymachine schrieb:
Klar kann man zuhause auch n Modell laufen lassen - teilweise gehts ja gar nicht um die Rechenpower - sondern um den Zugriff ....auf die Datenbank ! - Der Schlüssel von OpenAi & Co - das illegale downloaden des gesamten internets - inklusive copyright geschützter Inhalte...

Nur um dann ne Frage zu beantworten wie "hey Siri - wie weit ist der Mond entfernt ?" - dazu braucht man Daten & Daten & Daten - mittlerweile in Yotta-Byte ?! ^^

Irgendwo bringen einem dann zuhause auch 10x H100 irgendwie wenig, wenn man den nix zu futtern geben kann - da kommt dann kein "magisch ChatGPT 5.5 oder CLaude 4.8" raus - was einem mal umsonst ne milliarde Zeilencode automatisch umsonst programmiert

Mir ist nicht ganz klar, wie ich Deinen Beitrag verstehen soll.
Ich möchte aber klarstellen, dass die Modelle selbst die "Daten" enthalten und grundsätzlich keine weitere Datenbank benötigen. Man kann ein sehr kleines Modell mit z.B. 4GB herunterladen und das kann einem dann z.B. ohne weiteren Zugriff aufs Internet Informationen zu Sehenswürdigkeiten in irgend einem Kaff geben. Viele Informationen sind in so einem Modell dann falsch haluziniert. Aber dennoch weiß es verblüffend viel. Das Training der Modelle erzeugt am Ende im Prinzip einen Datensatz, der das Weltwissen (verlustbehaftet) komprimiert enthält.

Statt über Google Anfragen an Googles petabyte große Datenbanken zu stellen, kann man offline ein wenige Gigabyte großes Modell fragen.

Sykehouse · Gestern um 15:27

Haggis schrieb:
Mir ist nicht ganz klar, wie ich Deinen Beitrag verstehen soll.

Mir wars schon zu anstrengend, den Zeichensalat zu entwirren zu versuchen... aber in Zukunft werden wir wohl alle so schreiben müssen, um zu zeigen, dass wir keine KI Bots sind. 🤷‍♂️

-->Er@zor_X<-- · Gestern um 16:53

Mit einem ordentlichen Rechner, der vor einem Jahr ca. 1.000 € gekostet hat, bekommst Gemma 4 26B (MoE) und Qwen 3.6 35B (MoE) gut zum Laufen, sofern du 12 bis 16 GB VRAM am Start hast. Bei mir liefert Gemma 4 in der 4-Bit-Quantisierung ca. 25-30 Token/s, was schon sehr brauchbar ist. Qwen 3.6 ist bei etwa 15 Token/s, das passt auch noch. Via OpenHands kannst die mit WSL agentisch ganz gut laufen lassen. Mittels Docker passiert dir oder deinem Rechner da auch nichts.

Die Sprünge bei den kleinen Modellen sind schon enorm. Das kleine Gemma 4 bringt overall etwa die Leistung von Gemini 2.5 Pro von vor einem Jahr. Ziemlich beeindruckend. Für Opus-4.8-Performance wirst noch mindestens bis 2027 warten müssen. Aber das hätte dir vermutlich die Google-AI-Suche auch in drei Sekunden beantworten können.

chr1zZo · Gestern um 18:24

@-->Er@zor_X<-- 2027 glaub ich nicht das Hardware günstiger wird

Aber Leistungsstärkere wird kommen sowie bessere Modelle aus dem Bereich TurboQuant.

Drizz · Heute um 07:42

Claude 4.8 lokal - wäre ein Traum! Aber - keine Chance (noch nicht).
Die Frontier Modelle haben Größen von mehreren trillion parameters, die brauchen Terabytes an Speicher - das geht in Richtung UBB / NVSwitch basierter Systeme.

Die reißen im Betrieb dann übrigens gleich die Steckdose mit aus der Wand (~13KW).

Suche

Lokale KI mit unbegrenzter Nutzung?

Der_Dicke82

Lt. Commander

Syntax_41

Captain

GokuSS4

Rear Admiral

ich256

Ensign

Enurian

Commander

madmax2010

Fleet Admiral

freekymachine

Lt. Junior Grade

FreshLemon

Lieutenant

chr1zZo

Commodore

Haggis

Lt. Commander

Sykehouse

Captain

-->Er@zor_X<--

Lt. Junior Grade

chr1zZo

Commodore

Drizz

Cadet 3rd Year

Ähnliche Themen