Lokale KI/LLM Modelle Testen/Benchmarken

Cool Master

Fleet Admiral
Registriert
Dez. 2005
Beiträge
39.995
Hi Zusammen,

ich bin gerade dabei lokal einige LLMs laufen zu lassen und wollte mal fragen wie bewertet ihr die Leistung davon? Also eine Art Real-World Benchmark. Mir ist dazu noch nichts gutes eingefallen und wenn ist die Schwelle so gering, dass es im Prinzip kein Sinn ergibt weil es eben sehr leicht zu beantworten ist. Ich nutze aktuell 4 Modelle:

1. dolphin-llama3:8b
2. llama3:70b
3. llama3:8b
4. wizardlm2:7b

Ich hatte auch schon wizardlm2:8x22b probiert aber das läuft auf meinem M1 Max nicht, da 64 GB zu wenig sind. Dafür bräuchte ich eher 96 oder mehr GB RAM.

Wenn ihr da ein guten Test habt damit man die Modelle untereinander testen kann wäre das super :) Als UI nutze ich Open WebUI, wenn ihr da noch Optimierungen habt nehme ich die auch gerne an und teste sie.
 
also du solltest dir vermutlich erstmal ueberlegen welche Tasks genau du mit LLMs loesen willst. Es gibt fuer alles eigentlich schon Benchmarks welche auch von der Open Source Community in den Publikationen dann genommen werden um sich gegen existierende Modelle vergleichen zu koennen. Eine List davon waere z.B hier verlinkt:
https://github.com/leobeeson/llm_benchmarks

Ansonsten nutzen wir eigentlich immer erstmal die Leaderboard von Huggingface um eine Vorauswahl zu treffen: https://huggingface.co/collections/...enchmarks-collection-64faca6335a7fc7d4ffe974a
Fuer die "klassischen" LLM Tasks (du kannst da ja filtern was genau du als Fokus siehst) dann dieses Board hier: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

Hast du denn schon eine Idee was du mit den LLMs machen willst? Also welche Aufgaben sollen sie loesen?
 
  • Gefällt mir
Reaktionen: Cool Master
abcddcba schrieb:
Hast du denn schon eine Idee was du mit den LLMs machen willst? Also welche Aufgaben sollen sie loesen?

Ja, soll um Dokumentenanalyse (PDF) gehen und Code-Analyse/Optimierung.

Schon mal Danke für die Links werde ich morgen mal durchlesen.
 
Hi, ich habe ein paar benches zu gemma4:31b mit meinem hermes agent erstellt. Falls es schon solche Benchmark-Threads gibt, teile ich das Ergebnis auch gerne dort. Die Überschrift dieses Themas fand ich passend, auch wenn es schon 2 Jahre alt ist.

Test-Setup:
- GPU: NVIDIA GeForce RTX 5090 (32GB VRAM)
- CPU: AMD Ryzen 9 9950X3D
- OS: Nobara Linux
- Software: Hermes Agent, Ollama, LACT (für Tuning)
- Modell: gemma4:31b (Quantisierung: Q4_K_M)
- Optimierungen: Manueller Context-Override auf 104k (synchronisiert mit Hermes Agent) / FP16 Cache
- Ziel: 1000 Tokens (fixiert) / Hochkomplexer Reasoning-Prompt

Prompt: “Perform a comprehensive technical analysis of the impact of VRAM bandwidth on LLM inference speeds, specifically
comparing HBM3e vs GDDR6X. Explain the memory-bound nature of the process, the role of KV-cache quantization (FP8), and
how these factors influence tokens per second in a 31B parameter model. Provide a detailed reasoning and examples.”


| Konfiguration | TDP Limit | Spannung / VRAM-Offset | Tokens/s | Status |
|-----------------|-----------|----------------------------|----------|-------------------|
| Final Curve | 575W | 1,0V Curve | 70,00 | Optimiert |
| World Record | 575W | Stock+200MHz / VRAM+5,0GHz | 70,22 | Peak |
| Limit Breaker | 575W | 0,89V / VRAM+6,0GHz | 69,94 | Nahe Maximum |
| Extreme | 575W | 0,89V / VRAM+5,0GHz | 69,80 | Aggressiv |
| Stock | 575W | Treiber-Standard | 67,61 | Baseline |
| Efficiency-High | 500W | 0,87V / VRAM+4,5GHz | 67,97 | Marginaler Gewinn |
| Efficiency-Gold | 400W | 0,87V / VRAM+4,5GHz | 67,18 | Sweet Spot |
📈 Zentrale Erkenntnisse & Analyse

### 🚀 vLLM Performance Update (Aktuelle Messungen)

Setup: vLLM Engine, FP8 KV-Cache, --max-num-batched-tokens 4096

| Konfiguration | TDP Limit | Tokens/s | Differenz zum Peak |
| :--- | :---: | :---: | :--- |
| vLLM Full Power | 575W | 73,39 | Baseline (Neu) |
| vLLM Efficiency | 400W | 72,33 | - 1,44% |


1. Speichergebunden (Memory Bound): Die RTX 5090 ist bei der LLM-Inferenz extrem speichergebunden. Erhöhungen des Core-Takts bringen kaum Gewinne; das VRAM-Overclocking (bis zu +6GHz) ist der entscheidende Hebel für mehr Tokens/s.
2. TDP-Effizienz: Ein Power Limit von 400W reduziert die Performance nur um ca. 1-2% im Vergleich zu 575W. Dies senkt die Wärmeentwicklung und den Stromverbrauch massiv, ohne spürbare Einbußen bei der Geschwindigkeit.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Cool Master
Zurück
Oben