aLanaMiau
Lt. Commander
- Registriert
- Jan. 2023
- Beiträge
- 1.378
Versteh ich nicht.tomgit schrieb:Nicht nur sind die LLMs auf den AMD Chips merklich langsamer
https://www.computerbase.de/artikel...-3#abschnitt_kianforderungen_und_benchmarking
Folge dem Video um zu sehen, wie unsere Website als Web-App auf dem Startbildschirm installiert werden kann.
Anmerkung: Diese Funktion ist in einigen Browsern möglicherweise nicht verfügbar.
Versteh ich nicht.tomgit schrieb:Nicht nur sind die LLMs auf den AMD Chips merklich langsamer
madmax2010 schrieb:Mir fehlt da auch so ein bisschen der Usecase. Inferenz geht billiger und tbh ist ein Mac Studio mit M* Ultra und teils der M4 Pro Mac mini schlicht kosteneffizienter.
Die Grafikeinheit in einem AI395max nennt sich Radeon 8060S. Theoretische Werte wie zum Beispiel im Passmark verorten deren Leistung in den Dunstkreis von RTX4060mobil, RTX2080 aber auch der uralten GTX1080. Allein daran kann man schon erkennen, dass sie ganz offensichtlich nicht zum Spielen gedacht ist. Niemand kauft so ein System fürs Gaming. Vielmehr addiren sich im KI Bereich die CPU+GPU+RAM zu einem extrem leistungsfähigen System. Gaming und Heim-PC ist eine ganz andere Adresse.Ned Flanders schrieb:Kannst du das ungefähr zahlenmäßig einordnen? Klar ist die 5070 im DGX schneller als die APU aber wie viel ist irgendwie schwer zu bezifferen weil die 5070 ja kein Wildtyp ist sondern elektrisch und thermisch ganz anders gedeckelt ist.
Und Realität sieht bei mir anders aus. Ich nutze auch weder auf DGX Spark noch auf HP Zbook Ultra LM Studio, weil es zu viel Overhead benötigt. Und LM Studio ist auch keine "native" Binary unter Linux, sondern wird in AppImage ausgeliefert. Wie sehr sich das auf die Performance auswirkt, kann ich nicht sagen, höchstens testen.aLanaMiau schrieb:Versteh ich nicht.
Interessant. Ollama hat eigentlich den Ruf eine der langsamsten LLM Runtimes zu sein, vor allem verglichen mit z.B. vLLM. Es ist allerdings schön einfach in der Bedienung und es ist außerdem möglich dort die LLMs on-the-fly zu tauschen, auch mid-chat ohne Neustart.tomgit schrieb:Ich nutze auch weder auf DGX Spark noch auf HP Zbook Ultra LM Studio, weil es zu viel Overhead benötigt.
Mein Server läuft auf über Ollama [...]
Natürlich geht es mit anderen Frameworks schneller. Llama.cpp oder vLLM haben halt weniger Bloat. Ollama ist auch nicht gleich Ollama, ich weitestgehend nur die CLI VarianteFrozenPie schrieb:vor allem verglichen mit z.B. vLLM