Lokale KI mit unbegrenzter Nutzung?

Schmalhans93

Lieutenant
Registriert
Nov. 2022
Beiträge
912
Hallo zusammen,

ist vielleicht eine dumme Frage - aber gibt es die Möglichkeit eine KI lokal auf einem (sehr leistungsfähigen) Computer laufen zu lassen, so dass sie komplett unlimited und kostenlos wird (von Strom und Hardware abgesehen)?

Und falls ja - wie gut oder schlecht sind die?
Ich hätte gerne sowas wie Opus 4.8 unlimited.

Ich habe gesehen, dass sowohl AMD als auch NVIDIA solche Mini-PCs präsentiert haben, die genau dafür da sind um eine KI lokal zu hosten.

Die Frage ist aber, ob man kostenlos an die eigentliche Engine kommt? Also an das Modell selbst?

Anthropic verlangt natürlich Geld für die Nutzung, weil die Hardware dahinter Geld kostet. Aber das Modell selbst will ja auch bezahlt sein. Ist ja keine Open Source Software, soweit ich weiß?



Danke
 
Was ist die Referenz, welche Leistung wird benötigt?
 
Schau dir mal Ollama an.
Damit kannst du ein lokales LLM hosten sofern du entsprechende Hardware hast.
z.B. das Modell von Meta https://developer.meta.com/ai/models/llama-3/

Aber Opus wirst du darauf nicht laufen lassen können, da meines Wissens Anthropic seine Modelle nicht frei anbietet.
 
  • Gefällt mir
Reaktionen: Azghul0815
Ollama wäre grundsätzlich was, womit du dich mal beschäftigen könntest - grundsätzlich ist das das Tool, was du vmtl. suchst. Aber ob die darin verwendbaren Modelle konkurrenzfähig sind (vermutlich nicht, aber ggf. trotzdem ausreichend) weiß ich nicht - da bin ich nicht regemäßig genug am Ball. Aber ausprobieren schadet sicher nicht :)
 
Fujiyama schrieb:
Was ist die Referenz, welche Leistung wird benötigt?
Referenz wäre Claude Opus 4.8 auf Max.
Sagen wir das sind 100% - wo steht dann ein Modell, welches man selbst hosten und kostenlos betreiben kann?
 
Oder LM Studio. Das zeigt dir auch an, wie viel Speicher die Modelle ungefähr brauchen werden. An die Leistungsfähigkeit und Geschwindigkeit von online gehosteten Modellen wirst du aber nicht rankommen.
 
  • Gefällt mir
Reaktionen: Joe4x4
@Garmor Geschwindigkeit wäre mir egal. Wenn es kostenlos ist warte ich auch 20-30 Minuten auf eine geniale Antwort.

Aber das Ergebnis muss vergleichbar gut mit Opus / Fable / GPT 5.5 usw. sein.
 
Isses halt nicht, weil die Modelle zwangsläufig deutlich kleiner sind.
 
  • Gefällt mir
Reaktionen: kuddlmuddl, Col.Maybourne und JumpingCat
Die frei verfügbaren Modelle sind aktuell nur so gut, wie die besten großen Modelle vor ca. 12 Monate waren. Das ist nicht schlecht. Aber das Niveau von Opus 4.8 wird man heute lokal nicht erreichen. Aber vielleicht in 6 Monaten.

Und mit kleinen Computern unter 100.000€ wird es noch mal schlechter. Ich habe hier ein MacBook mit M5 und 64GB RAM. Damit läuft z.B. ein qwen3.6 mit ca. 20GB brauchbar schnell. Das ist qualitativ durchaus brauchbar. Aber spürbar schlechter als Opus 4.8
 
  • Gefällt mir
Reaktionen: JP-M, Aduasen, Col.Maybourne und eine weitere Person
Du hast dich echt null ins Thema eingelesen, oder?

Hardware die sowas wie Fable laufen lassen kann kostet sechsstellig.

Auf deinem Gaming-PC laufen bestenfalls KI-Modelle mit einem Hundertstel der Parameter, die auch deutlich schlechter performen.

Und open source (was du brauchst für kostenlos lokal) ist von den Fähigkeiten meist so ein halbes bis ganzes Jahr hinter dem closed source hinterher.

Die aktuell besten open source Modelle müssten die zwei sein:
https://huggingface.co/zai-org/GLM-5.2 (754B Parameter)
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro (1600B Parameter)

Die sind auch sehr gut, aber damit das gut läuft brauchst du jeweils 1-2 TB an RAM und VRAM, je nach anvisiertem Modell und Context Größe.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: NerdmitHerz, Geckoo, Col.Maybourne und 10 andere
Und für GLM 5.2 bräuchtest Du schon richtig fette Hardware im mittleren 5stelligen Bereich
 
  • Gefällt mir
Reaktionen: Azghul0815
Schmalhans93 schrieb:
Ich hätte gerne sowas wie Opus 4.8 unlimited.
Die Frage ist letztlich, wofür das benötigt wird. Texte Schreiben können Modelle ab 7b Parameter schon gut, (einfacheres) Coden würde ich mindestens 27b Parameter sehen (wobei Gemma 4 14b schon gut sein soll). Komplette Software-Projekte werden dann schon schwieriger, GLM soll gut sein, aber da bist auch längst über normale PCs hinweg - vielleicht 4bit auf einem 512GB Mac Studio, wenn man den noch bekommt.
 
1. Um ein Model wie Fable 5 oder GPT 5.5 lokal laufen zu lassen, müsstest du sehr viele Millionen investieren in Hardware. Unabhängig davon, dass die Modelle nicht öffentlich sind.

Entsprechend muss du nach "Open Source" Modelle schauen. Diese kannst du lokal benutzen. Schaust was dein PC hergibt und wählst dann ein passendes Modell aus, was mit deiner Hardware läuft.

Um die Leistung einschätzen zu können gibt es Benchmark-Arenen wie: https://arena.ai/leaderboard/agent

Dort kannst du nach verschiedenen Kategorien schauen...

Bei "Chat" führt z.B. Fable 5 mit 1509 Punkten. Unter Filtern kannst du auch auf "Open Source" beschränken. Dort ist dann z.B. GLM zu finden. Allerdings sind das meistens auch sehr große Open Source Modelle, die du nur in einem Rechenzentrum hosten kannst. Du musst also nach einem kleinen passen Open Source Modell für dein Anwendungsgebiet suchen.
 
Dann brauchst du ein sehr großen und sehr teueren PC um die Leistung eines Rechenzentrums zu erhalten. Dann kannst du kostenlos das System nutzen, wird dann aber wahrscheinlich Jahrzehnte dauern bis du das Geld der Anschaffung ggü nem Abo wieder drin hast.
 
  • Gefällt mir
Reaktionen: Aduasen
  • Gefällt mir
Reaktionen: Azghul0815
GLM5.2 ist Open-Source und nahe an Opus 4.8 dran, aber braucht ein paar RTX 6000 PRO um lokal zu laufen.

Die beste Lösung ist:

1. Vergleiche top LLMs
https://llm-stats.com/

2. Vergleiche kosten auf OpenRouter. Mit nur einer API kannst du den besten Provider für dich auswählen.
https://openrouter.ai/z-ai/glm-5.2#providers
 
  • Gefällt mir
Reaktionen: Tornhoof
Schmalhans93 schrieb:
Sagen wir das sind 100% - wo steht dann ein Modell, welches man selbst hosten und kostenlos betreiben kann
Vergleich bei einem der einschlägigen AI Model Vergleichseiten glm 5.2 und dein gewünschtes Modell. Das ist aber kein linearer Vergleich, 5 Punkte in irgendeinem Benchmark können ggf den Unterschied zwischen nutzbar und kompletter Unfug ausmachen.

Dann gibst einen guten mittleren 5 stelligen Betrag aus und kaufst die Hardware.
 
madmax2010 schrieb:
Du brauchst ca 1.5tb VRAM, als Modell kimi k2, deepseek v4 pro, glm 5, oder minimax m3.

So hardware hier geht

https://smicro.eu/amd-radeon-instinct-mi300x-8-oam-cdna-3-0-pcie-5-0-x16-1536-gb-100-300000045h-1

Du brauchst Modelle der Klasse aber auch nicht für ein bisschen powerpoints erstellen.
Das kann auch 2 Jahre altes llama mit 30-70mrd Parametern super
Ich rede über sowas hier:

https://www.instagram.com/p/DZn-hqhDTTC/?img_index=1&igsh=MW82M3U5amNxeDI0NQ==

 
WAS ZUM FICK
nein, ich will dir nicht folgen lieber Nils

Ergänzung ()

Schmalhans93 schrieb:
Ich rede über sowas hier:
nein, tust du in deinem startpost nicht.

Rickmer schrieb:
Du hast dich echt null ins Thema eingelesen, oder?
...

ohne jetzt mehr als 2 sekunden auf den brainrot post zu schauen, das reicht um sehr kleine modelle zu betreiben DDR5 ist einfach faktor 100 zu langsam
 
Zurück
Oben