KI-Grenzen?

Schmalhans93

Lieutenant
Registriert
Nov. 2022
Beiträge
872
Hallo zusammen,

mal hypothetisch angenommen man wechselt den Arbeitgeber.

Beim neuen Arbeitgeber gibt es ein Abteilungslaufwerk mit 50 GB Daten.

In den Daten ist alles enthalten - von Org Chart der Abteilung über historische Planungen, jede Menge Berichte in PowerPoint und Excel, Arbeitsanweisungen, Handbooks, Erläuterungen usw.

Man bekommt die Aufgabe das alles zu einem neuen Handbook / Target Operating Model für die Abteilung zusammenzufassen und Prozesse zu dokumentieren.

Ich persönlich bin der Meinung, dass - wenn man alle Daten bei einem KI Modell hochladen könnte - dieses Modell alle Informationen hätte.

Man schreibt dann einfach einen guten Prompt, der einem aus den bestehenden Daten die Prozesse ableitet, ein Handbook erstellt und das Target Operating Model aufsetzt.

Jetzt mal Datenschutz außen vor (ist natürlich der Showstopper) - gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?


Wir dürfen Copilot (in der abgesicherten Version) nutzen. Aber die Datenmenge geht da natürlich nicht rein.

Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?

Danke
 
Wenn es Teil des Prompts sein soll, bzw. des Kontextes ist es zuviel. Du müsstest es vorher von LLMs "eindampfen" lassen, so dass diese Zusammenfassung als Kontext vllt. nicht die Token sprengt. Ist aber alles Mist. Am Besten wäre es ein eigenes Modell mit diesen Daten feinzutunen. Ist aber nochmal eine anderer immenser Aufwand.
 
50 GB ist halt eine Menge Daten und ich habe da meine Zweifel, dass es da überhaupt ein kostengünstiges Modell gibt, dass so viel Daten zulässt. Das müsste man dann wahrscheinlich schon etwas aufteilen.
Datenschutz ist halt vor allem das Thema "personenbezogene Daten". Alles andere ist erstmal relativ unkritisch. Da sollte man sich natürlich auch absichern inwieweit die Daten durch den Anbieter ggfs. fürs Training genutzt werden. Aber gerade personenbezogene Daten heißt eigentlich, dass man von jeder Person auch das Einverständnis einholen muss aber eben genau diese Daten vor der Verarbeitung durch ein solches Modell anonymisiert.

Mir würde da jetzt für "kleinere" Daten NotebookLM einfallen.

Aber ohne Eigenarbeit wird das nichts. Man muss sich das Zeug also selbst schon auch mal anschauen und ggfs. auch schon aussieben und vor allem etwas vor sortieren.
 
Das macht man nicht mit Uploads. Viele Unternehmen nutzen (fallls sowieso im MS Kosmos unterwegs) Copilot dafür, der dann auf die Daten in den ganzen SharePoint Sites zugreifen kann. Damit kann man sowas nicht nur problemlos machen, sondern auch alles mögliche Rausfinden, weshalb man ein LLM auch nicht ohne umfassende Vorbereitung einführt.
 
  • Gefällt mir
Reaktionen: JumpingCat, Tornhoof, coxon und eine weitere Person
Schmalhans93 schrieb:
mal hypothetisch angenommen man wechselt den Arbeitgeber.

Ist der Wechsel des Arbeitgebers in diesem Szenario überhaupt von Belang? Ich hab den Bezug zum alten Arbeitgeber nicht gefunden, aber ich überfliege Texte auch sehr oft.
 
  • Gefällt mir
Reaktionen: kachiri
Die Copilot Agenten suchen sich die Informationen, die sie brauchen jedenfalls selbstständig zusammen. Ob das bei 50GB noch hinreichend funktioniert weiß ich nicht, aber hängt garantiert davon ab, was das für Daten sind, welche Metadaten dazu existieren (z.B. Verzeichnisstruktur) und weiteres, also im Prinzip wie einfach die KI die jeweils wichtigen Daten finden kann.
 
Hast Du ne Stelle als KI-Profi in ner "neuen Firma" gefunden?
 
  • Gefällt mir
Reaktionen: midwed
Schmalhans93 schrieb:
vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Wir sprechen hier immerhin von Firmen, die mithilfe von massivsten Urheberrechtsverstößen groß geworden sind. Ob dir deren "trust me, bro" reicht musst du entscheiden, bzw. ob du an die Anreize glaubst, jetzt nicht mehr deine Daten zu verarbeiten und gut versteckt in einem KI Modell abzulegen.
 
  • Gefällt mir
Reaktionen: dx1
Schmalhans93 schrieb:
Hallo zusammen,

mal hypothetisch angenommen man wechselt den Arbeitgeber.
Ist das relevant für den weiteren Verlauf im Post? ;)
Schmalhans93 schrieb:
Beim neuen Arbeitgeber gibt es ein Abteilungslaufwerk mit 50 GB Daten.
ok, Dateigröße könnte relevant sein. Sagt aber nix über die Menge der Daten aus.
Schmalhans93 schrieb:
Man bekommt die Aufgabe das alles zu einem neuen Handbook / Target Operating Model für die Abteilung zusammenzufassen und Prozesse zu dokumentieren.
Widerspricht das dem Arbeitsvertrag?
Schmalhans93 schrieb:
Ich persönlich bin der Meinung, dass - wenn man alle Daten bei einem KI Modell hochladen könnte - dieses Modell alle Informationen hätte.
So viel kriegst du erstmal nicht so einfach hochgeladen.
Schmalhans93 schrieb:
Man schreibt dann einfach einen guten Prompt, der einem aus den bestehenden Daten die Prozesse ableitet, ein Handbook erstellt und das Target Operating Model aufsetzt.
Den Prompt würde ich sehen wollen. ;)

Aber so einfach ist das nicht.
Schmalhans93 schrieb:
Jetzt mal Datenschutz außen vor (ist natürlich der Showstopper) - gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?
Um das zu "bewältigen" müsstest du ein RAG System aufbauen und erst dann mit guten Modellen usw. wäre die Aufgabe machbar. Wobei nicht spezifiziert ist, was die Aufgabe ist.
Schmalhans93 schrieb:
Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Datenschutzschulung machen und sich informieren, was man machen müsste um das zu gewährleisten.
 
Das Problem ist hier vielleicht nicht in erster Linie der DSGVO-mäßige Datenschutz (wenn wirklich keine persönlichen Daten enthalten wären), aber es gibt auch sowas wie Geschäftsgeheimnisse und Vertraulichkeitserklärungen per Vertrag. Social Engineering bzw. Wissen über Schwachstellen zu bekommen wäre easy für jeden Hacker, der diesen Input hätte.
 
50GiB ist gut machbar, Azure AI Search als turnkey RAG Lösung würde etwa (angenommen 50% echte Daten), grobe 250€ im Monat kosten (3* Basic Instanzen), rein Storage und keine initialen Ingress Kosten und keine prompt Kosten, zb als direkte Verbindung zu Sharepoint für die Daten. Das ganze dann zb anbinden via Copilot. Typische Antwortzeit auf einen Prompt wären dann etwa 5-10 Sekunden.
Ob du damit dann was sinnvolles anfangen kannst, ist eine andere Frage. Nur so als Einordnung.
 
  • Gefällt mir
Reaktionen: Der_Picknicker
Schmalhans93 schrieb:
Hat jemand Erfahrung mit solchen großen Datenmenge? Und vielleicht auch eine Idee, wie man den Datenschutz gewährleisten könnte?
Das gibt es kommerziell von Microsoft etc. Ich kenne Firmen die haben bereits ihre gesamte Historie per AI durchsuchbar und abrufbar. Natürlich nur für einen engen Mitarbeiterstab und mit einem kommerziell von Microsoft eingekauften lokalen Model. 50GB sind nicht das Problem.
 
  • Gefällt mir
Reaktionen: JumpingCat und Schmalhans93
@Tornhoof .. Sehe ich ähnlich. Eigentlich eine typische RAG-Aufgabe. 50GB ist eigentlich nichts an Daten. Teuer wird’s nur, wenn man „Bilder“ also keine Textuelle Daten hat und dann die Tokens etwas explodieren lassen.
 
Schmalhans93 schrieb:
- gäbe es eine KI, die den Upload von 50 GB Daten erlaubt und die diese Daten dann wirklich alle sinnvoll nutzt, um die Aufgabe zu bewältigen?

50GB auf einmal nicht. Aber Microsoft Copilot Work beantwortet doch alle Fragen zu Dateien auf Sharepoint und Co und schreibt dir automatisch dazu Excel, Powerpoint und Word Dokumente.

Verstehe daher deine Frage nicht so richtig.
 
Dateien auf Sharepoint und glaub Copilot premium und er kann eh auf alle Dateien zugreifen und dir was auswerten/entwerfen und dazu genau diese Daten nutzen.
 
Zurück
Oben