Lokale KI/LLM Modelle Testen/Benchmarken

Cool Master · 28. Juni 2024

Hi Zusammen,

ich bin gerade dabei lokal einige LLMs laufen zu lassen und wollte mal fragen wie bewertet ihr die Leistung davon? Also eine Art Real-World Benchmark. Mir ist dazu noch nichts gutes eingefallen und wenn ist die Schwelle so gering, dass es im Prinzip kein Sinn ergibt weil es eben sehr leicht zu beantworten ist. Ich nutze aktuell 4 Modelle:

1. dolphin-llama3:8b
2. llama3:70b
3. llama3:8b
4. wizardlm2:7b

Ich hatte auch schon wizardlm2:8x22b probiert aber das läuft auf meinem M1 Max nicht, da 64 GB zu wenig sind. Dafür bräuchte ich eher 96 oder mehr GB RAM.

Wenn ihr da ein guten Test habt damit man die Modelle untereinander testen kann wäre das super

Als UI nutze ich Open WebUI, wenn ihr da noch Optimierungen habt nehme ich die auch gerne an und teste sie.

abcddcba · 28. Juni 2024

also du solltest dir vermutlich erstmal ueberlegen welche Tasks genau du mit LLMs loesen willst. Es gibt fuer alles eigentlich schon Benchmarks welche auch von der Open Source Community in den Publikationen dann genommen werden um sich gegen existierende Modelle vergleichen zu koennen. Eine List davon waere z.B hier verlinkt:
https://github.com/leobeeson/llm_benchmarks

Ansonsten nutzen wir eigentlich immer erstmal die Leaderboard von Huggingface um eine Vorauswahl zu treffen: https://huggingface.co/collections/...enchmarks-collection-64faca6335a7fc7d4ffe974a
Fuer die "klassischen" LLM Tasks (du kannst da ja filtern was genau du als Fokus siehst) dann dieses Board hier: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

Hast du denn schon eine Idee was du mit den LLMs machen willst? Also welche Aufgaben sollen sie loesen?

Cool Master · 28. Juni 2024

abcddcba schrieb:
Hast du denn schon eine Idee was du mit den LLMs machen willst? Also welche Aufgaben sollen sie loesen?

Ja, soll um Dokumentenanalyse (PDF) gehen und Code-Analyse/Optimierung.

Schon mal Danke für die Links werde ich morgen mal durchlesen.

Suche

Lokale KI/LLM Modelle Testen/Benchmarken

Cool Master

Fleet Admiral

abcddcba

Rear Admiral

Cool Master

Fleet Admiral