KI-Grenzen?

Schmalhans93

Lieutenant
Registriert
Nov. 2022
Beiträge
889
Hallo zusammen,

mal hypothetisch angenommen man wechselt den Arbeitgeber.

Beim neuen Arbeitgeber gibt es ein Abteilungslaufwerk mit 50 GB Daten.

In den Daten ist alles enthalten - von Org Chart der Abteilung über historische Planungen, jede Menge Berichte in PowerPoint und Excel, Arbeitsanweisungen, Handbooks, Erläuterungen usw.

Man bekommt die Aufgabe das alles zu einem neuen Handbook / Target Operating Model für die Abteilung zusammenzufassen und Prozesse zu dokumentieren.

Ich persönlich bin der Meinung, dass - wenn man alle Daten bei einem KI Modell hochladen könnte - dieses Modell alle Informationen hätte.

Man schreibt dann einfach einen guten Prompt, der einem aus den bestehenden Daten die Prozesse ableitet, ein Handbook erstellt und das Target Operating Model aufsetzt.

Jetzt mal Datenschutz außen vor (ist natürlich der Showstopper) - gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?


Wir dürfen Copilot (in der abgesicherten Version) nutzen. Aber die Datenmenge geht da natürlich nicht rein.

Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?

Danke
 
Wenn es Teil des Prompts sein soll, bzw. des Kontextes ist es zuviel. Du müsstest es vorher von LLMs "eindampfen" lassen, so dass diese Zusammenfassung als Kontext vllt. nicht die Token sprengt. Ist aber alles Mist. Am Besten wäre es ein eigenes Modell mit diesen Daten feinzutunen. Ist aber nochmal eine anderer immenser Aufwand.
 
50 GB ist halt eine Menge Daten und ich habe da meine Zweifel, dass es da überhaupt ein kostengünstiges Modell gibt, dass so viel Daten zulässt. Das müsste man dann wahrscheinlich schon etwas aufteilen.
Datenschutz ist halt vor allem das Thema "personenbezogene Daten". Alles andere ist erstmal relativ unkritisch. Da sollte man sich natürlich auch absichern inwieweit die Daten durch den Anbieter ggfs. fürs Training genutzt werden. Aber gerade personenbezogene Daten heißt eigentlich, dass man von jeder Person auch das Einverständnis einholen muss aber eben genau diese Daten vor der Verarbeitung durch ein solches Modell anonymisiert.

Mir würde da jetzt für "kleinere" Daten NotebookLM einfallen.

Aber ohne Eigenarbeit wird das nichts. Man muss sich das Zeug also selbst schon auch mal anschauen und ggfs. auch schon aussieben und vor allem etwas vor sortieren.
 
  • Gefällt mir
Reaktionen: Aduasen
Das macht man nicht mit Uploads. Viele Unternehmen nutzen (fallls sowieso im MS Kosmos unterwegs) Copilot dafür, der dann auf die Daten in den ganzen SharePoint Sites zugreifen kann. Damit kann man sowas nicht nur problemlos machen, sondern auch alles mögliche Rausfinden, weshalb man ein LLM auch nicht ohne umfassende Vorbereitung einführt.
 
  • Gefällt mir
Reaktionen: konkretor, Aduasen, evilhunter und 4 andere
Schmalhans93 schrieb:
mal hypothetisch angenommen man wechselt den Arbeitgeber.

Ist der Wechsel des Arbeitgebers in diesem Szenario überhaupt von Belang? Ich hab den Bezug zum alten Arbeitgeber nicht gefunden, aber ich überfliege Texte auch sehr oft.
 
  • Gefällt mir
Reaktionen: Micke, dms und kachiri
Die Copilot Agenten suchen sich die Informationen, die sie brauchen jedenfalls selbstständig zusammen. Ob das bei 50GB noch hinreichend funktioniert weiß ich nicht, aber hängt garantiert davon ab, was das für Daten sind, welche Metadaten dazu existieren (z.B. Verzeichnisstruktur) und weiteres, also im Prinzip wie einfach die KI die jeweils wichtigen Daten finden kann.
 
Hast Du ne Stelle als KI-Profi in ner "neuen Firma" gefunden?
 
  • Gefällt mir
Reaktionen: Aduasen, madmax2010 und midwed
Schmalhans93 schrieb:
vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Wir sprechen hier immerhin von Firmen, die mithilfe von massivsten Urheberrechtsverstößen groß geworden sind. Ob dir deren "trust me, bro" reicht musst du entscheiden, bzw. ob du an die Anreize glaubst, jetzt nicht mehr deine Daten zu verarbeiten und gut versteckt in einem KI Modell abzulegen.
 
  • Gefällt mir
Reaktionen: iSight2TheBlind, nutrix, Mr. Poe und eine weitere Person
Schmalhans93 schrieb:
Hallo zusammen,

mal hypothetisch angenommen man wechselt den Arbeitgeber.
Ist das relevant für den weiteren Verlauf im Post? ;)
Schmalhans93 schrieb:
Beim neuen Arbeitgeber gibt es ein Abteilungslaufwerk mit 50 GB Daten.
ok, Dateigröße könnte relevant sein. Sagt aber nix über die Menge der Daten aus.
Schmalhans93 schrieb:
Man bekommt die Aufgabe das alles zu einem neuen Handbook / Target Operating Model für die Abteilung zusammenzufassen und Prozesse zu dokumentieren.
Widerspricht das dem Arbeitsvertrag?
Schmalhans93 schrieb:
Ich persönlich bin der Meinung, dass - wenn man alle Daten bei einem KI Modell hochladen könnte - dieses Modell alle Informationen hätte.
So viel kriegst du erstmal nicht so einfach hochgeladen.
Schmalhans93 schrieb:
Man schreibt dann einfach einen guten Prompt, der einem aus den bestehenden Daten die Prozesse ableitet, ein Handbook erstellt und das Target Operating Model aufsetzt.
Den Prompt würde ich sehen wollen. ;)

Aber so einfach ist das nicht.
Schmalhans93 schrieb:
Jetzt mal Datenschutz außen vor (ist natürlich der Showstopper) - gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?
Um das zu "bewältigen" müsstest du ein RAG System aufbauen und erst dann mit guten Modellen usw. wäre die Aufgabe machbar. Wobei nicht spezifiziert ist, was die Aufgabe ist.
Schmalhans93 schrieb:
Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Datenschutzschulung machen und sich informieren, was man machen müsste um das zu gewährleisten.
 
Das Problem ist hier vielleicht nicht in erster Linie der DSGVO-mäßige Datenschutz (wenn wirklich keine persönlichen Daten enthalten wären), aber es gibt auch sowas wie Geschäftsgeheimnisse und Vertraulichkeitserklärungen per Vertrag. Social Engineering bzw. Wissen über Schwachstellen zu bekommen wäre easy für jeden Hacker, der diesen Input hätte.
 
  • Gefällt mir
Reaktionen: iSight2TheBlind und Aduasen
50GiB ist gut machbar, Azure AI Search als turnkey RAG Lösung würde etwa (angenommen 50% echte Daten), grobe 250€ im Monat kosten (3* Basic Instanzen), rein Storage und keine initialen Ingress Kosten und keine prompt Kosten, zb als direkte Verbindung zu Sharepoint für die Daten. Das ganze dann zb anbinden via Copilot. Typische Antwortzeit auf einen Prompt wären dann etwa 5-10 Sekunden.
Ob du damit dann was sinnvolles anfangen kannst, ist eine andere Frage. Nur so als Einordnung.
 
  • Gefällt mir
Reaktionen: derchris, Azghul0815 und Der_Picknicker
Schmalhans93 schrieb:
Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Das gibt es kommerziell von Microsoft etc. Ich kenne Firmen die haben bereits ihre gesamte Historie per AI durchsuchbar und abrufbar. Natürlich nur für einen engen Mitarbeiterstab und mit einem kommerziell von Microsoft eingekauften lokalen Model. 50GB sind nicht das Problem.
 
  • Gefällt mir
Reaktionen: evilhunter, JumpingCat und Schmalhans93
@Tornhoof .. Sehe ich ähnlich. Eigentlich eine typische RAG-Aufgabe. 50GB ist eigentlich nichts an Daten. Teuer wird’s nur, wenn man „Bilder“ also keine Textuelle Daten hat und dann die Tokens etwas explodieren lassen.
 
  • Gefällt mir
Reaktionen: Azghul0815
Schmalhans93 schrieb:
- gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?

50GB auf einmal nicht. Aber Microsoft Copilot Work beantwortet doch alle Fragen zu Dateien auf Sharepoint und Co und schreibt dir automatisch dazu Excel, Powerpoint und Word Dokumente.

Verstehe daher deine Frage nicht so richtig.
 
  • Gefällt mir
Reaktionen: Lawnmower
Dateien auf Sharepoint und glaub Copilot premium und er kann eh auf alle Dateien zugreifen und dir was auswerten/entwerfen und dazu genau diese Daten nutzen.
 
  • Gefällt mir
Reaktionen: Lawnmower
Mein AG ist zu geizig und gibt kein Pro frei.

Und mit Work kann man zwar Dateien importieren - aber nur einzeln.
Es sind über 10.000 Dateien.
Diese liegen auf OneDrive / SharePoint. Wenn man das Verknüpfen könnte wäre es die Lösung.

Aber ich glaube nicht, dass er alle 10.000 Dateien als Basis für eine Anfrage gleichzeitig nutzt.
 
dafür ist RAG doch da.
Dennoch ist es oft nicht ganz so einfach.
Dürfen alle 50GB von allen MA gesehen werden? Sind das sensible Daten drauf? Wie steuert man den Zugriff, welche LLMs dürfen drauf zugreifen? usw.
Mit den Themen schlagen sie ha gerade viele Unternehmen rum. Semantische Suche ist echt was geiles, aber das Aufsetzen teilweise wegen der Governance nicht schwer umsetzbar, zimindest in grösseren Firmen.
 
Schmalhans93 schrieb:
gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?
sowas musst du lokal machen. und dafür natürlich eine entsprechend potente workstation haben. was ich bezweifle wenn es schon an einer softwarelizenz hapert :evillol:

hochladen fällt, wie du schon sagst, aus datenschutzgründen aus.
 
Ich habe gelesen, dass der neue Mac M5 Pro Chip da extrem gut sein soll, um ein lokales Modell zu betreiben?
 
bart0rn schrieb:
Hast Du ne Stelle als KI-Profi in ner "neuen Firma" gefunden?
Neee, sowas macht heute der Turnschuhadmin nebenbei mit.
 
Zurück
Oben