Salamimander
Commodore
- Registriert
- Okt. 2019
- Beiträge
- 5.036
Hi,
Ich habe mir gerade mal OpenWebUI mit Anbindung an openrouter.ai installiert und habe mal Fragen rund um das Thema Datenschutz/RAG/Performance.
Erst die Eckdaten:
Zielbild:
Geplant sind erstmal zwei Nutzer, künftig vielleicht 4. Kostentechnisch so auf 20$ gedeckelt.
Wo ich jetzt ein wenig an mein Verständnislimit komme ist das RAG und das ganze Task gedöns. Natürlich sollen alle Modelle im Web suchen können und so wie ich das verstehe werden Titel und suchen von einem extra “Task Modell” erstellt. Performt mein lokales llmama 353b da noch ausreichend? Oder sollte ich das zB a Gemini Flash geben? Kost ja fast Nix…
Dann kommt noch das embedding aus dem RAG, das performt lokal leider null aber andererseits ist das auch wieder ein Datenschutz GAU das RAG an extern zu schicken, oder?
Hintergrund: ich will pro User 1-x Datenbanken für Basis Infos, damit der prompt nicht zu lang wird. Oder macht es ggf. doch Sinn diese Infos ins prompt zu packen? (Hardware Infos, Projekte, etc)
Ich habe mir gerade mal OpenWebUI mit Anbindung an openrouter.ai installiert und habe mal Fragen rund um das Thema Datenschutz/RAG/Performance.
Erst die Eckdaten:
- OpenWebUI und searngx laufen in einem stack
- Ollama in einem weiteren
Zielbild:
- 1 Daily Modell für alles mögliche
- 1 Coding Modell für HA/nodered usw.
- 1 Free Modell analog zum Daily nur dümmer

Geplant sind erstmal zwei Nutzer, künftig vielleicht 4. Kostentechnisch so auf 20$ gedeckelt.
Wo ich jetzt ein wenig an mein Verständnislimit komme ist das RAG und das ganze Task gedöns. Natürlich sollen alle Modelle im Web suchen können und so wie ich das verstehe werden Titel und suchen von einem extra “Task Modell” erstellt. Performt mein lokales llmama 353b da noch ausreichend? Oder sollte ich das zB a Gemini Flash geben? Kost ja fast Nix…
Dann kommt noch das embedding aus dem RAG, das performt lokal leider null aber andererseits ist das auch wieder ein Datenschutz GAU das RAG an extern zu schicken, oder?
Hintergrund: ich will pro User 1-x Datenbanken für Basis Infos, damit der prompt nicht zu lang wird. Oder macht es ggf. doch Sinn diese Infos ins prompt zu packen? (Hardware Infos, Projekte, etc)