Lokale KI mit unbegrenzter Nutzung?

Schmalhans93 · Heute um 11:13

Hallo zusammen,

ist vielleicht eine dumme Frage - aber gibt es die Möglichkeit eine KI lokal auf einem (sehr leistungsfähigen) Computer laufen zu lassen, so dass sie komplett unlimited und kostenlos wird (von Strom und Hardware abgesehen)?

Und falls ja - wie gut oder schlecht sind die?
Ich hätte gerne sowas wie Opus 4.8 unlimited.

Ich habe gesehen, dass sowohl AMD als auch NVIDIA solche Mini-PCs präsentiert haben, die genau dafür da sind um eine KI lokal zu hosten.

Die Frage ist aber, ob man kostenlos an die eigentliche Engine kommt? Also an das Modell selbst?

Anthropic verlangt natürlich Geld für die Nutzung, weil die Hardware dahinter Geld kostet. Aber das Modell selbst will ja auch bezahlt sein. Ist ja keine Open Source Software, soweit ich weiß?

Danke

Fujiyama · Heute um 11:17

Was ist die Referenz, welche Leistung wird benötigt?

MetalForLive · Heute um 11:17

Schau dir mal Ollama an.
Damit kannst du ein lokales LLM hosten sofern du entsprechende Hardware hast.
z.B. das Modell von Meta https://developer.meta.com/ai/models/llama-3/

Aber Opus wirst du darauf nicht laufen lassen können, da meines Wissens Anthropic seine Modelle nicht frei anbietet.

Max8260 · Heute um 11:19

Ollama wäre grundsätzlich was, womit du dich mal beschäftigen könntest - grundsätzlich ist das das Tool, was du vmtl. suchst. Aber ob die darin verwendbaren Modelle konkurrenzfähig sind (vermutlich nicht, aber ggf. trotzdem ausreichend) weiß ich nicht - da bin ich nicht regemäßig genug am Ball. Aber ausprobieren schadet sicher nicht

Schmalhans93 · Heute um 11:19

Fujiyama schrieb:
Was ist die Referenz, welche Leistung wird benötigt?

Referenz wäre Claude Opus 4.8 auf Max.
Sagen wir das sind 100% - wo steht dann ein Modell, welches man selbst hosten und kostenlos betreiben kann?

Garmor · Heute um 11:22

Oder LM Studio. Das zeigt dir auch an, wie viel Speicher die Modelle ungefähr brauchen werden. An die Leistungsfähigkeit und Geschwindigkeit von online gehosteten Modellen wirst du aber nicht rankommen.

Schmalhans93 · Heute um 11:23

@Garmor Geschwindigkeit wäre mir egal. Wenn es kostenlos ist warte ich auch 20-30 Minuten auf eine geniale Antwort.

Aber das Ergebnis muss vergleichbar gut mit Opus / Fable / GPT 5.5 usw. sein.

Garmor · Heute um 11:25

Isses halt nicht, weil die Modelle zwangsläufig deutlich kleiner sind.

Haggis · Heute um 11:25

Die frei verfügbaren Modelle sind aktuell nur so gut, wie die besten großen Modelle vor ca. 12 Monate waren. Das ist nicht schlecht. Aber das Niveau von Opus 4.8 wird man heute lokal nicht erreichen. Aber vielleicht in 6 Monaten.

Und mit kleinen Computern unter 100.000€ wird es noch mal schlechter. Ich habe hier ein MacBook mit M5 und 64GB RAM. Damit läuft z.B. ein qwen3.6 mit ca. 20GB brauchbar schnell. Das ist qualitativ durchaus brauchbar. Aber spürbar schlechter als Opus 4.8

Rickmer · Heute um 11:26

Du hast dich echt null ins Thema eingelesen, oder?

Hardware die sowas wie Fable laufen lassen kann kostet sechsstellig.

Auf deinem Gaming-PC laufen bestenfalls KI-Modelle mit einem Hundertstel der Parameter, die auch deutlich schlechter performen.

Und open source (was du brauchst für kostenlos lokal) ist von den Fähigkeiten meist so ein halbes bis ganzes Jahr hinter dem closed source hinterher.

Die aktuell besten open source Modelle müssten die zwei sein:
https://huggingface.co/zai-org/GLM-5.2 (754B Parameter)
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro (1600B Parameter)

Die sind auch sehr gut, aber damit das gut läuft brauchst du jeweils 1-2 TB an RAM und VRAM, je nach anvisiertem Modell und Context Größe.

Mircosfot · Heute um 11:28

https://lmstudio.ai/

Drahminedum · Heute um 11:31

Und für GLM 5.2 bräuchtest Du schon richtig fette Hardware im mittleren 5stelligen Bereich

tomgit · Heute um 11:33

Schmalhans93 schrieb:
Ich hätte gerne sowas wie Opus 4.8 unlimited.

Die Frage ist letztlich, wofür das benötigt wird. Texte Schreiben können Modelle ab 7b Parameter schon gut, (einfacheres) Coden würde ich mindestens 27b Parameter sehen (wobei Gemma 4 14b schon gut sein soll). Komplette Software-Projekte werden dann schon schwieriger, GLM soll gut sein, aber da bist auch längst über normale PCs hinweg - vielleicht 4bit auf einem 512GB Mac Studio, wenn man den noch bekommt.

Ayo34 · Heute um 11:34

1. Um ein Model wie Fable 5 oder GPT 5.5 lokal laufen zu lassen, müsstest du sehr viele Millionen investieren in Hardware. Unabhängig davon, dass die Modelle nicht öffentlich sind.

Entsprechend muss du nach "Open Source" Modelle schauen. Diese kannst du lokal benutzen. Schaust was dein PC hergibt und wählst dann ein passendes Modell aus, was mit deiner Hardware läuft.

Um die Leistung einschätzen zu können gibt es Benchmark-Arenen wie: https://arena.ai/leaderboard/agent

Dort kannst du nach verschiedenen Kategorien schauen...

Bei "Chat" führt z.B. Fable 5 mit 1509 Punkten. Unter Filtern kannst du auch auf "Open Source" beschränken. Dort ist dann z.B. GLM zu finden. Allerdings sind das meistens auch sehr große Open Source Modelle, die du nur in einem Rechenzentrum hosten kannst. Du musst also nach einem kleinen passen Open Source Modell für dein Anwendungsgebiet suchen.

Fujiyama · Heute um 11:35

Dann brauchst du ein sehr großen und sehr teueren PC um die Leistung eines Rechenzentrums zu erhalten. Dann kannst du kostenlos das System nutzen, wird dann aber wahrscheinlich Jahrzehnte dauern bis du das Geld der Anschaffung ggü nem Abo wieder drin hast.

madmax2010 · Heute um 11:36

Schmalhans93 schrieb:
Referenz wäre Claude Opus 4.8 auf Max.

Du brauchst ca 1.5tb VRAM, als Modell kimi k2, deepseek v4 pro, glm 5, oder minimax m3.

So hardware hier geht

https://smicro.eu/amd-radeon-instinct-mi300x-8-oam-cdna-3-0-pcie-5-0-x16-1536-gb-100-300000045h-1

Du brauchst Modelle der Klasse aber auch nicht für ein bisschen powerpoints erstellen.
Das kann auch 2 Jahre altes llama mit 30-70mrd Parametern super

PrussianHeathen · Heute um 11:42

GLM5.2 ist Open-Source und nahe an Opus 4.8 dran, aber braucht ein paar RTX 6000 PRO um lokal zu laufen.

Die beste Lösung ist:

1. Vergleiche top LLMs
https://llm-stats.com/

2. Vergleiche kosten auf OpenRouter. Mit nur einer API kannst du den besten Provider für dich auswählen.
https://openrouter.ai/z-ai/glm-5.2#providers

Tornhoof · Heute um 11:45

Schmalhans93 schrieb:
Sagen wir das sind 100% - wo steht dann ein Modell, welches man selbst hosten und kostenlos betreiben kann

Vergleich bei einem der einschlägigen AI Model Vergleichseiten glm 5.2 und dein gewünschtes Modell. Das ist aber kein linearer Vergleich, 5 Punkte in irgendeinem Benchmark können ggf den Unterschied zwischen nutzbar und kompletter Unfug ausmachen.

Dann gibst einen guten mittleren 5 stelligen Betrag aus und kaufst die Hardware.

Schmalhans93 · Heute um 11:51

madmax2010 schrieb:
Du brauchst ca 1.5tb VRAM, als Modell kimi k2, deepseek v4 pro, glm 5, oder minimax m3.

So hardware hier geht

https://smicro.eu/amd-radeon-instinct-mi300x-8-oam-cdna-3-0-pcie-5-0-x16-1536-gb-100-300000045h-1

Du brauchst Modelle der Klasse aber auch nicht für ein bisschen powerpoints erstellen.
Das kann auch 2 Jahre altes llama mit 30-70mrd Parametern super

Ich rede über sowas hier:

https://www.instagram.com/p/DZn-hqhDTTC/?img_index=1&igsh=MW82M3U5amNxeDI0NQ==

madmax2010 · Heute um 11:55

WAS ZUM FICK
nein, ich will dir nicht folgen lieber Nils

Ergänzung (Heute um 11:56)

Schmalhans93 schrieb:
Ich rede über sowas hier:

nein, tust du in deinem startpost nicht.

Rickmer schrieb:
Du hast dich echt null ins Thema eingelesen, oder?

...

ohne jetzt mehr als 2 sekunden auf den brainrot post zu schauen, das reicht um sehr kleine modelle zu betreiben DDR5 ist einfach faktor 100 zu langsam

Lokale KI mit unbegrenzter Nutzung?

Lieutenant

Fleet Admiral

Admiral

Ensign

Lieutenant

Captain

Lieutenant

Captain

Lt. Commander

Silent-Fanatiker Pro

Lt. Commander

Lieutenant Pro

Rear Admiral

Admiral

Fleet Admiral

Fleet Admiral

Ensign

Commander

Lieutenant

https://www.instagram.com/p/DZn-hqhDTTC/?img_index=1&igsh=MW82M3U5amNxeDI0NQ==​

Fleet Admiral

Ähnliche Themen

https://www.instagram.com/p/DZn-hqhDTTC/?img_index=1&igsh=MW82M3U5amNxeDI0NQ==