• ComputerBase erhält eine Provision für Käufe über eBay-Links.

KI-Server Build für Interferenz für 2000€

tomgit schrieb:
Von welcher "AI" sprechen wir hier, weil den "einen" AI-Workflow sehe ich hier nicht.
Doch, es wurde ansatzweise erwähnt:
sokakp schrieb:
KI Interferenz - Wir hatten jetzt an das Finetuning von Mistral 8x7B 4-bit gedacht oder Llama3. Training optional würde ich jetzt erstmal auf ein später vertragen.
Llama 3 ist herrlich unspezifisch, aber Mixtral 8x7B Q4 braucht ca. 26GB plus mehr für Context. Mit 2x RTX 3090 könnte man da was machen.

MoE sollte zugegeben auch mit niedriger Speicherbandbreite halbwegs performant laufen... aber Mixtral ist mittlerweile auch wieder fernab von 'state of the art' und wäre für so ein Projekt nicht meine Wahl.

tomgit schrieb:
Eigentlich ein Wunder, dass noch keiner auf den Mac Studio oder Mac Mini verwiesen hat, der ab 64GB RAM auch eine Alternative wäre.
Damit kann man sicherlich arbeiten, aber sind die Apple Geräte als 'Server' verwendbar? Ich habe mich nicht weiter damit beschäftigt, welche relevante Software auf Macs läuft.

Abgesehen davon, dass der Mac Mini nicht genügend RAM hat und das Mac Studio außerhalb des Budget liegt. Gebraucht mit M2 Max und 64GB RAM ist vielleicht so grade erreichbar.
Wenn ich kurz auf ebay schaue - ein M2 Ultra ist zu beliebt weil der mit 800 GB/s Speicherbandbreite wirklich was bringen kann. Der kostet auch jetzt noch ~3000€ für den minimalen Speicherausbau von 64GB.
 
  • Gefällt mir
Reaktionen: JumpingCat
Rickmer schrieb:
Doch, es wurde ansatzweise erwähnt:
Dann bitte aber auch komplett lesen, da ist auch von Dashboards und Analysen die Rede, was eben nicht über Sprachmodelle läuft.

Rickmer schrieb:
Abgesehen davon, dass der Mac Mini nicht genügend RAM hat
Den gibt es auch mit 64GB: https://geizhals.de/apple-mac-mini-2024-z1jv-a3344506.html?hloc=de

Ob man die wirklich braucht, ist die andere Frage, Apples Kernel wirklich gut läuft und der komplette RAM auch von der GPU genutzt werden kann.

Rickmer schrieb:
Damit kann man sicherlich arbeiten, aber sind die Apple Geräte als 'Server' verwendbar? Ich habe mich nicht weiter damit beschäftigt, welche relevante Software auf Macs läuft.
Kommt drauf an, was man tun möchte - da aber Rosetta mit macOS 27 rausfallen wird/soll, würde ich mich nicht drauf verlassen, dass alles langfristig laufen wird.
War auch eher zynisch gemeint.
 
  • Gefällt mir
Reaktionen: JumpingCat
tomgit schrieb:
Mit Verlaub, das wäre höchstens notwendig, wenn Finetuning von Modellen notwendig ist - und das wird aus den Aufgaben heraus nicht wirklich deutlich.
Für die meisten fest genannten Aufgaben wird diese Hardware nicht benötigt.
Njoa... - klar, man kanns auch übertrieben - aber wie erwähnt.

Eine Geforce 5090 für Hobbyspielerrei, damit auch was bei rumkommt... is schon irgendwie fast gesetzt - oder ne 5080 -klar gehts auch mit einer 5060ti -aber drunter wirds dann auch irgendwie "warum überhaupt?"

Und n Desktop als "Server" geht immer, logisch..

nur.. dann kannste echt n altes Quadchannel DDR4 System mit ECC Reg nehmen, haste 5x mehr was von, supergünstig, weil DDR4 ECC Reg einfach zu tausenden rumfliegt.
24/7 Betrieb / ordentliche Hardware - echte Serverteile, ECC Reg.

Vs da gefühlt 1600€ fürn desktop rechner, der eher wie ein geburtstagsgeschenkt für Sohnemann wirkt :P
..wo halt teile drinne sind die jeder zwar gern persönlich hätte - aber irgendwie sinnlos für n AI Server sind - warum geld für Kühler, m.2, Board, ryzen 7950 ?! ausgeben, wenn man für die Kohle n deutlich besseren echten Supermicro server zusammen bekommt - geld übrig ist fürne bessere Grafikkarte.
 
  • Gefällt mir
Reaktionen: sokakp
  • Gefällt mir
Reaktionen: Azghul0815
Ich brauchte erstmal etwas Zeit um das alles zu verarbeiten :D

Vielen Dank für eure ganzen Antworten und Tipps! Ihr challenged uns sehr gut, konkreter zu bekommen, was wir jetzt genau wollen und was sinnvoll ist. Da sind richtig viele gute Punkte dabei und wir haben einiges gelernt :)

Zu den ganzen weiteren Fragen:
honky-tonk schrieb:
habt ihr schon erfahrung mit KI? nicht dass ihr jetzt blind was kauft und dann merkt, das ist komplett das falsche. da würde es sich anbieten das erstmal zum rumspielen in der cloud zu mieten und erst wenn's ernst wird und ihr wisst wieviel performance ihr braucht das als server hinzustellen
HerrRossi schrieb:
Prinzipiell ja, aber auch den kann man mit der richtigen Software zum Server machen.
KI-Erfahrung: Wir haben nicht sehr viel Erfahrung. Wir wollen ausprobieren und schauen, wie man die neuen Möglichkeiten sinnvoll für kleine Unternehmen nutzen kann.
Server: Wir haben es Server genannt, weil wir eine Umgebung schaffen wollen, in der wir zusammen arbeiten können. Und um sensible Daten separat zu speichern. Und da wir dafür jetzt sowieso Geld ausgeben haben wir überlegt, einen Grundstein zu legen um mit den Möglichkeiten von KI zu experimentieren. Und das wir nicht in 6 Monaten wieder neu alles aufsetzen müssen sondern einen Build haben, wo wir primär die Grafikkarten nachrüsten.


KI-Anwendung spezifizieren
tomgit schrieb:
Könnt ihr das bitte spezifizieren? Für das meiste, was du hier aufgelistet hast, benötigt es keine große Hardware.
Dashboards, Reports und Prediction ist einfache Statistik, höchstens wirklich abhängig von der Datenmenge - gehe aber bei einem drei Personen Unternehmen jetzt aber nicht gerade von aus, dass hier Terabytes an Daten fließen ;)
Tornhoof schrieb:
Was du wahrscheinlich eigentlich willst, ist RAG, Retrieval Augmented Generation, also mit den Daten "reden" und "Fragen stellen". Das ist ein anderes Problem, deckt aber ggf. einen relativ großen Anteil der Probleme von KMUs ab.
tomgit schrieb:
Was genau wollt ihr denn Finetunen? Bzw. für welchen Workflow wollt ihr LLMs einsetzen. Nicht für jede Aufgabe sind LLMs geeignet, und von den geeigneten Workflows gibt es auch genügend, wo es einfach nicht benötigt wird.
tomgit schrieb:
Könnt ihr das bitte spezifizieren? Für das meiste, was du hier aufgelistet hast, benötigt es keine große Hardware.
Dashboards, Reports und Prediction ist einfache Statistik, höchstens wirklich abhängig von der Datenmenge - gehe aber bei einem drei Personen Unternehmen jetzt aber nicht gerade von aus, dass hier Terabytes an Daten fließen ;)

Gerne auch per DM genauer abklären
Looniversity schrieb:
Was ist mit SQL und plot.ly geworden? Wenn es für die Buchführung und interne Kostenrechnung sein soll sollten die Zahlen doch schon stimmen und jemand die Auswertungen mit Sinn und Verstand gebaut haben, statt das dem AI-Thermomix zu überlassen.
tomgit schrieb:
Mit Verlaub, das wäre höchstens notwendig, wenn Finetuning von Modellen notwendig ist - und das wird aus den Aufgaben heraus nicht wirklich deutlich.
Für die meisten fest genannten Aufgaben wird diese Hardware nicht benötigt.
Es stimmt - die Anwendungsfälle, die wir jetzt schon klar haben, haben erstmal keine KI-Komponente sondern nur einen "Server/Umgebung" in der wir alles aufsetzen können bzgl. Datenbanken, eigenen KPI-Rechnungen und Dashboarding. Hat erstmal nichts mit KI zu tun.

Konkretes an KI Anwendung: Wir haben mehr eine Vision wo wir deren Realisierbarkeit und wie nützlich ist das überhaupt evaluieren wollen. Die Vision ist ein LLM zu Finetunen im Bereich Controlling/Reporting/ Betriebswirtschaftliche Frage mit dem Ziel den Kunden zu Reports, KPIs und Grafiken, die Möglichkeit zu geben, sehr konkrete Fragen zustellen, u.a. in Verbindungen mit deren Daten, die bei uns liegen (am liebsten auch kombiniert mit operativen Daten von denen). Zielgruppen sind insb. Leute meisten Firmeninhaber*innen deren Stärken nicht im Betriebswirtschaftlichen liegen, sondern in anderen Fachbereichen, wie Beispielsweise Handwerk, Hotellerie usw. Wir wollen die unterstützen ihr Unternehmen besser zu verstehen und bessere Entscheidungen zu treffen. Zum finetunen wollen wir öffentlich verfügbare Datasets nutzen wie beispielsweise mit das Dataset von Prof. Engel der Uni Nürtingen - was man halt so mit entsprechenden Lizenzen (MIT..) so findet.

Das ist die Vision die wir gerne ausprobieren wollen. Dafür müssen wir keine optimalen Ergebnisse bekommen, sondern wollen das evaluieren, ob es a. funktioniert und b. ob Kunden das überhaupt hilfreich finden/benutzen würden.

Und wenn das gut klappt, dann hatten wir gedacht, dass ein 2ten Graffikkartensteckplatz vorzuhalten um die GraKa nachzurüsten. Ansich war die Idee ein Setup auszuwählen, mit dem wir experimentieren und lernen können, was wir eigentlich mit KI bauen/entwickeln wollen um dann später die entsprechende GPU Power nachzurüsten.

Ob wir das auch mit nur externen Ressourcen evaluieren können, kann ich nicht einschätzen.


Mxhp361 schrieb:
Ich würde trotz DSVGO in Richtung Server mieten schauen. Für erstmal nur "probieren" langt das alle mal, wenn Ihr dann was gescheitet zum laufen gebracht habt, wisst Ihr wo Ihr steht und könnt ein eigenes System in Erwägung ziehen.
Das werden wir mal recherchieren, was da möglich ist.

freekymachine schrieb:
Vs da gefühlt 1600€ fürn desktop rechner, der eher wie ein geburtstagsgeschenkt für Sohnemann wirkt :P
Love it <3

HerrRossi schrieb:
Es ist halt eine Budgetfrage, für inferencing ist die 5060 ti mit 16GB schon brauchbar, die liefert halt nur weniger token/sek als eine 5080 oder 5090. Wenn man größere Modelle laden will, kann man halbwegs günstig eine zweite Karte nachrüsten.
Wenn es anfangs erstmal langsamer ist, ist das okay. Wenn klarer ist, was funktioniert und was wir brauchen, dann könnte man nachrüsten. Das war der ursprüngliche Gedanke.



Rickmer schrieb:
Einen günstigen Grundbau mit 8-core CPU, 96~128GB RAM und so viele RTX 3090 wie du dir leisten kannst.


Gedanken und Frage an euch:
1. Mit der genaueren Beschreibung, was wir mit KI ausprobieren wollen, und wo wir da stehen, könnte man mit einfacheren Modellen als dem MiXtral 8x7B das sinnvoll austesten - was dann weniger VRAM braucht? Was für eine Hardware-Wahl würde dann sinn machen?
2. Eine RTX 3090 gäbe es für 750 € gebraucht - würde dass dann schon wieder mehr Sinn machen?
3. was würdet ihr sagen, was für eine Hardware-Wahl da Sinn ergeben würde?
4. Macht es Sinn das mit externen Ressourcen ausprobieren? Und dann mit einem Mac Mini zu starten?


freekymachine schrieb:
nur.. dann kannste echt n altes Quadchannel DDR4 System mit ECC Reg nehmen, haste 5x mehr was von, supergünstig, weil DDR4 ECC Reg einfach zu tausenden rumfliegt.
24/7 Betrieb / ordentliche Hardware - echte Serverteile, ECC Reg.
Das klingt interessant - ich kann mir darunter noch nicht so viel vorstellen.
 
sokakp schrieb:
Das klingt interessant - ich kann mir darunter noch nicht so viel vorstellen.
An sich "ganz easy"

obs nun n Core i3 6300, n Ryzen 7950 oder n Xeon Gold 6310 is
-> die bauste alle nahezu ähnlich ein - sind und bleiben "x86er" - kannst auf allen Win/Linux installieren wie auf jedem anderen Rechner.

Is halt nur vollwertige Server hardware, ausgelegt für 10 Jahre 24/7 Betrieb.
Klar kannst auch n fertigen Mediamarktrechner einfach Linux installieren und 3x "Ai" Grafikkarten reindrücken.

Aber ist halt preislich irgendwie sehr attraktiv behaupte ich mal, wenn n Ryzen 7950 alleine mal eben 400€ kostet - für das Geld bekommte halt sowas hier ;
supermicro.jpg
128gbram.jpg
xeon2697av4.jpg


n altes Supermicro C612 - passen glaub ich 512GB ECC Reg. Ram drauf in Quad-Channel = mal eben 70GB/sec und bis Xeon 2699v4 = 22-Kerne mit AVX2 - 100€, sicherlich verhandelbar

DDR4 ECC Registered läuft halt nicht überall - und wenn mal eben son dicker Server aufgelöst wird = 16 Module übrig - bei 100 Servern mal eben 1600x Ram Module übrig - wer braucht die schon^^ = verdammt günstig - siehst da auf Kleinanzeigen 4x 32GB ECC Reg für 80€ - und kannste sicherlich noch brutal runterhandeln, kann froh sein wenn sich mal überhaupt jemand meldet !!

Und ne Xeon 2697a V4 z.b. - 16 kerne, auf Ebay, läuft sicherlich irgendwo bei 50€ aus ?!

= Haste n Kit für 220€ ?!
AVX2 / 128GB ECC Reg / Supermicro 24/7 Server/WS mit 16-Kern - wo auch noch 4x Grafikkarten draufpassen.

Netzteil natürlich dementsprechend wählen; 4x geforce 5090 = mal eben 2KW = doch 2 Netzteile^^
Aber an sich tuts da z.b. für 1x Geforce 5080, mit dem Board n standard Bequiet 750 Watt Netzteil, wie für jeden anderen Gaming/Office/Desktop-Rechner.

-------

Naja und Upscaling is natürlich "easy"
Mehr ram ? kaufen..
CPU - ok, mehr als n Xeon 2699v4 geht nicht rein, der kost auch wieder etwas viel, weil dickster für den Sockel - die 6 kerne mehr ?! lohnt wohl eh nicht
Grafikkarten ?? Guck ins Portemonaie :P - 4x Nvidia H100 gebraucht = 80.000 € !!

-> wenn dann doch mehr verlangt wird, oder halt auch AVX512 = einfach Stufe höher gehen
= Sockel 3647 Xeon - Boards teilweise 200, 300€ - cpus kaum teurer als 2011 - nehmen genau die gleichen DDR4 ECC reg module wie Sockel 2011 Xeon - aber Hexachannel
Klar, andere Kühler, Netzteil an sich auch wie jedes dicke Gaming-OC Board - ATX 24Pin + 8Pin + nochmal 8Pin = kein problem.

M.2 haben meisten Boards, teilweise auch per Riser anschließbar - nicht das es teils ne 1TB Sata SSD taugt zum booten + einfach 8TB für Storage oder sowas ?! - meiste passiert ja eh in den GPU's.

----

naja und so gehts halt immer weiter - Sockel 4189 Xeon wird teuer + da könnte man dann auch langsam AMD Epyc Sockel SP3 gehn (48-Kern epyc = 400€ / 24 Kern 75€.../ Boards teils aber auch 400, 500€?! )

Aber so bleibt halt massiv Geld für dicke GPU's übrig - wenn man eh erstmal auf 2000€ fixiert ist und Ai halt an sich "nur" GPU's haben will.

--------

Naja, meine Meinung :)

Bin da auf jeden Fall sehr belehrbar - ist ja auch neues Thema, les/seh finde da auch sehr viel verschiedenes, aber son "Pauschalangebot/Lösung" gibs da jetzt auch noch nicht so richtig - auch der Rechner fürn Kollegen ist halt wie erwähnt "Experiment" - halt mal sehn - is n Xeon AVX1 - 64GB DDR3 ECC Reg in Quad-Channel mit Xeon 2697v2 mit Supermicro Board - aber halt ner Geforce 3080 drauf :)
Er weiß auch noch nicht so recht - wird erstmal expermentieren, bzw is auch schon fleißig dabei - weiß ich selbst das da evt was anderes nötig sein wird ?! Er weiß es auch - aber irgendwo muss man ja anfangen und wer weiß wo man sich hin entwickelt ?! was man dann doch eher benötigt ?!

Ist halt auch sehr Software abhängig -wenn man weiß was man nutzen wird gibs manchmal schon klare antworten, aber kaum ändert sich was oder man will was anderes anfangen braucht man schlagartig evt doch was sehr anderes an Hardware

---

Edit - naja Pauschallösung gibs schon - frag nur nicht nach Preis^^
Siehe @Supermicro Website : https://www.supermicro.com/de/products/system/gpu/5u/as%20-5126gs-
tnrt2 So sieht halt n aktueller dafür aus, gibs auch ne Gen älter.

Oder was man so sieht, was andere Leute umbauen (von Reddit) :
hpdual2011.webp
threadripper.webp

Links is ne HP ML350 Gen9 - dual Sockel 2011 Xeon mit 4x Nvidia P40
Rechts n Threadripper 3975wx mit 7x Nvidia A4000

..hat auch den gleichen Kühler wie ich auf seinem Threadripper (gutes teil^^)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: sokakp, Rickmer und JumpingCat
freekymachine schrieb:
...altes Supermicro C612...
Einen großen Haken hat die alte Hardware: nur PCIe 3.0, dazu kommt dann nur x8 von der 5060ti, damit bekommst du ein bottleneck, wenn du mehr als eine Grafikkarte einsetzen willst. In dem Fall würde ich dann auf EINE 3090 setzen, die dann aber auch "nur" 24GB RAM hat und nicht 32 wie 2x 5060ti.
Und ja, die Busgeschwindigkeit ist beim inferencing über mehrere Grafikkarten relevant.
 
  • Gefällt mir
Reaktionen: JumpingCat
sokakp schrieb:
Und wenn das gut klappt, dann hatten wir gedacht, dass ein 2ten Graffikkartensteckplatz vorzuhalten um die GraKa nachzurüsten. Ansich war die Idee ein Setup auszuwählen, mit dem wir experimentieren und lernen können, was wir eigentlich mit KI bauen/entwickeln wollen um dann später die entsprechende GPU Power nachzurüsten.
Für solche Anwendungsfälle gibt es AMD Strix Halo.

Im Grunde ein Versuchsaufbau von LLMs im eigenen Unternehmen und das ganze lokal.
Bei Framework könnte man zum hochskalieren auch vier davon miteinander verbinden.
Bei 64GB RAM/VRAM oder gar 128GB RAM/VRAM könnt ihr dann auch größere Modelle laufen lassen als auf einer RTX5090, ist eben überspitzt gesagt eine APU mit übergroßer iGPU und verlötetem RAM.

Ein weiterer Vorteil wäre das es keine "Bastellösung" ist sondern ein Produkt von der Stange mit entsprechenden Produktsupport.
Ergänzung ()

sokakp schrieb:
4. Macht es Sinn das mit externen Ressourcen ausprobieren? Und dann mit einem Mac Mini zu starten?
Ersters und ein AI Max+ 395 von AMD.
Hatte oben schon eine Workstation von HP verlinkt.

Edit:
Ist zwar über dem Budget aber mit folgenden lassen sich eben ganz andere Kaliber von LLMs betreiben und es ist günstiger als vier RTX5090.
https://geizhals.de/hp-z2-mini-g1a-workstation-b76q7et-abd-a3497069.html?hloc=at&hloc=de
oder eben Framework (Vorbestellung)
https://frame.work/de/de/desktop
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: sokakp und freekymachine
KarlsruheArgus schrieb:
Bei Framework könnte man zum hochskalieren auch vier davon miteinander verbinden.
Das ginge mit allen Rechnern über das Netzwerk, bottleneck ist dann die NIC.

Wie ist denn die Performance von AMD vs. Nvidia? CUDA liegt mW. immer noch deutlich vor ROCm, auch was die "Bastelei", um die Modelle ans laufen zu bringen, angeht. Hier bin ich aber nicht wirklich im Thema und lerne gerne dazu.
 
HerrRossi schrieb:
Das ginge mit allen Rechnern über das Netzwerk, bottleneck ist dann die NIC.
Es ist hier einfacher gelöst als Serverbastellösungen und darum geht es hier ja.
Der TE will ja an/mit den LLMs arbeiten und nicht an der Hardware.
HerrRossi schrieb:
Wie ist denn die Performance von AMD vs. Nvidia?
Lässt sich pauschal nicht beantworten, so schlecht wie vor einem Jahr ist es nicht mehr und AMD findet zu genüge Anwendung.
Des weiteren steht hier bereits Apple mit dem Mac Mini im Raum und wenn ich die Wahl habe zwischen Mac Mini oder Strix Halo nehme ich Strix Halo.
 
KarlsruheArgus schrieb:
Es ist hier einfacher gelöst als Serverbastellösungen und darum geht es hier ja.
Wie hat framework das gelöst, wie werden die Rechner verbunden?
KarlsruheArgus schrieb:
Lässt sich pauschal nicht beantworten, so schlecht wie vor einem Jahr ist es nicht mehr und AMD findet zu genüge Anwendung.
Ich habe nichts gegen AMD, meine aber, dass es mit CUDA weniger Softwareprobleme gibt, immer noch.
 
HerrRossi schrieb:
Wie hat framework das gelöst, wie werden die Rechner verbunden?
Ähnlich wie bei Apple über USB4, bei Apple eben mit Thunderbolt 5.
 
lazsniper schrieb:
modelle trainieren, selbst wenns nur ne lora ist, wird z.b. bei replicate auf ner nvidia h200 gpu gemacht - die kostet schlappe 32000 euro - und braucht für das training einer popeligen lora 35 minuten!
stop, falsch! ich hab grad noch ne lora trainiert bei replicate - das läuft auf 8 (!) H100 karten - das sind also schlappe 160.000 euro nur an GPU leistung :D
 
Also, in der Situation in der ihr seid, sind viele Unternehmen. Ki ist bekannt, aber die Use Cases sind noch nicht so deutlich definiert. Erstmal ausloten, was die Möglichkeiten sind.

Wenn ich so ein Digitalisierungsprojekt hätte, dann würde ich so vorgehen ( ich versuche dabei einmal die Komplexität etwas rauszunehmen):

Fangt mit einfachen Automationen an. Das könnt ihr mit make.com oder auch n8n (Letzteres hast du am Anfang erwähnt) Beide bieten Cloudlösungen an, beide sind in der EU.

Macht euch einen Account bei Openai. Make.com und n8n haben beide fertige Konnektoren dafür.

Damit könnt ihr im Grunde erste Proof of Concepts umsetzen.
wie beispielsweise "Verbinde zwei Systeme, wie Webshop und sende Verkaufszahlen in ein Google Sheet."

Dann mit KI:
- "Das hier sind die Verkaufszahlen, das hier das verfügbare Inventar, fasse beides zusammen und sende eine Email mit Vorschlägen, ob wir neue Produkte für den Webshop nachkaufen müssen, bei aktuellen Verbauch."

Nächster Schritt:
Wenn ihr soweit seid und ein Gefühl bekommt, dann könnt ihr mit n8n einen richtigen AI Agent bauen. Das geht dort besser als in make, weil es auch eine Chatmöglichkeit gibt. Und ihr könnt an dem Modul auch Quellen leicht anbinden, wie Dokumente, oder auch Datenbanken, ( Hier wird für Laien der Einfachheithalber das Wort "Training" verwendet, obwohl hier tatsächlich noch kein Modell trainiert wird)
Dann könnt ihr euren Use Case bauen, den du zuvor genannt hast, bei dem es darum geht Unternehmensdaten abzufragen wie: "Wieviel Umsatz haben wir mit dem Verkauf von Äpfeln letzte Woche gemacht"

Bis zu disesem Zeitpunkt braucht es noch gar keine dedizierte Hardware. Das könnt ihr alles mit n8n und Openai machen. Jetzt könnt ihr euch aber überlegen, wenn es dann produktiv wird, wie strikt ihr eure Daten schützen wollt. Ihr könnt dann zb vorgegebene KI Modelle, statt auf Openai, auf AWS Bedrock (zb Antropic) oder Microsoft Azure (openai) isoliert hosten.
Wenn euch das auch nicht genügt, so könnt ihr auch bei einem deutschen Anbieter wie ionos Open Source Modelle hosten. Dafür gibt es aber keinen Konnektor in n8n. Das müsst ihr dann anders lösen.

Ihr könnt auch noch einen Schritt weiter gehen, und n8n selber hosten, zum Beispiel bei Hetzner. Die haben auch GPU Server, die für Interferenz geeignet sind. Mit Ollama könnt ihr weitesgehend alle Open Source Modelle wie Mistral, Llama 3, Gemma3 oder deepseek hosten. Dafür gibt es auch einen passenden Konnektor in n8n.
Falls ihr euch das nicht zutraut, sowas öffentlich zu hosten, dann könnt ihr genau dieses Setup auch völlig Lokal nachbilden.

Was solltet ihr nun kaufen?
Schaut erstmal ob ihr nicht mit Cloudlösungen anfangen wollt. Wenn ihr jedoch direkt Lokal anfangen wollt, dann tuts zum Lernen auch ein Mac Mini m4 (pro) mit 32gb Speicher (ca 1200 Euro). Für Automationen ohne KI reicht im Prinzip der günstigste Mac mini für 600 Euro. Auch nen alter Raspberry Pi könnte das.

Wenn ihr dann produktiv arbeiten wollt, würde ich überlegen auf einen Mac Studio mit m3 ultra zu gehen. Dann seid ihr aber schon bei 5000 Euro.
Alternativ, du sagtest du könntest eine 3090 bekommen. Das ist ein guter Start. ich habe eine 4090, ebenfalls mit 24gb VRAM. Damit läuft Gemma3:12b schon ganz okey. Ich persönlich empfinde 8b Modelle nciht als ausreichend für den produktiven Einsatz. Mein persönliches Ziel ist is es, auf Gemma3:27b zu gehen. Das läuft einigermaßen, hier wäre aber eine Grafikkarte mit 48GB wirklich sinnvoll ( Ein Mac Studio M3 Ultra hat 96gb - 5000 Euro, ein M4 Max gibt es auch mit 64GB -3400 Euro)


Alles darüber wird sehr schnell sehr teuer. An dieser Stelle sei gesagt, dass wir auch noch kein Modell trainiert haben. Für das Arbeiten mit Dokumenten bzw Unternehmensdaten braucht ihr das aber meist auch noch nicht.
Das lässt sich in dem von mir weiter oben beschriebenen Szenario bereits abbilden.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: sokakp und JumpingCat
KarlsruheArgus schrieb:
Ähnlich wie bei Apple über USB4, bei Apple eben mit Thunderbolt 5.
Danke für die Info, das wird dann auch zum bottleneck. Nvidia weiß schon, warum sie Mellanox gekauft haben.
Ergänzung ()

Marcoschwa schrieb:
Für das Arbeiten mit Dokumenten bzw Unternehmensdaten braucht ihr das aber meist auch noch nicht.
Welches Modell würdest du da empfehlen?
 
HerrRossi schrieb:
Nvidia weiß schon, warum sie Mellanox gekauft haben.
Alles eine Frage des Budgets, aufgrund des Budgets wäre ich schon mit einem dieser Systeme zufrieden. 64GB oder gar 128GB VRAM sind nicht zu verachten.
 
  • Gefällt mir
Reaktionen: KarlsruheArgus
HerrRossi schrieb:
Welches Modell würdest du da empfehlen?
Cloud
Chatgpt 4o mini. Bei größeren Datenmengen 4o

Open Source Modelle
Bei einfachen LLM Calls oder bei open Webui (ein chatinterface wie bei Chatgpt) mag ich wie geschrieben Gemma3, mindestens in der 12b Variante

Wenn es Richtung AI Agent in n8n geht, dann ganz allgemein müssen die Modelle Tooling unterstützen. Das kann man auf der ollama Seite direkt nach filtern. Gemma3 unterstützt das nicht von Haus aus, auch wenn es kommuniziert wird. Es gibt aber von der Community angepasste Varianten, die das ermöglichen.

Manchmal ist es hilfreich, auch sogenannte "instruct" Modelle zu wählen. Die sind darauf modifiziert sich auf INSTRUKTionen des Benutzers zu konzentrieren. Conversational Modelle labern und stellen Folgefragen.
 
  • Gefällt mir
Reaktionen: sokakp, HerrRossi, KarlsruheArgus und eine weitere Person
Zurück
Oben