Build 2024

Copilot+, GPT-4o & Gemini: Die Next-Gen-AI-Assistenten könnten tatsächlich nützlich sein

25.5.2024 13:00 Uhr

Andreas Frischholz

Bild: Microsoft Copilot Designer

Eine neue Generation von AI-Assistenten soll den digitalen Alltag revolutionieren, lautet die Botschaft der Konferenzen von OpenAI (GPT-4o), Google (Gemini) und Microsoft (Copilot+). Multimodal ist das Stichwort für die kommenden Assistenten, die den Raum visuell wahrnehmen und sich mit natürlicher Sprache steuern lassen.

Traditionell gibt es bei Entwicklerkonferenzen wie der Google I/O und der Microsoft Build unzählige Ankündigungen, in diesem Jahr wenig überraschend dominiert von großen und kleinen AI-Features.

AI-Ankündigungen im Überblick

Drei Erkenntnisse aus dem Ankündigungsmarathon, an dem sich letzte Woche auch OpenAI beteiligte, sind hängen geblieben:

Erkenntnis 1: Vor allem die neuen Sprachfunktionen haben das Potenzial für eine kleine Revolution

Was insbesondere OpenAI und Microsoft präsentierten, war beeindruckend. Nicht unbedingt die Qualität der Antworten sticht hervor, sondern die Art, wie die Assistenten die Umgebung erfassen. Demonstrationen, die das veranschaulichen:

OpenAI zeigte zwei Smartphones mit ChatGPT, die sich praktisch unterhalten. Eins lässt das andere – nach der entsprechenden Prompt-Eingabe – den Raum über die Kamera erkunden und sich erklären, was passiert.
Microsoft präsentiert den Copilot als Assistent für einen Spieler in Minecraft. Möglich ist das, weil der KI-Assistent den Bildschirm aufzeichnet und erkennt, was im Spiel passiert.
Google setzt mit Circle to Search und den neuen Lens-Versionen ebenfalls auf eine Form der Suche, bei der Nutzer nicht nur Begriffe eingeben, sondern alles in die Suchanfrage mit einbeziehen, was auf dem Bildschirm passiert.

Insbesondere bei solchen Demonstrationen ist die Übertragbarkeit in den Alltag jedoch fraglich. Man weiß schlicht nicht, wie viel Anläufe oder Feinjustierungen nötig waren, um so eine Demonstration auf die Beine zu stellen. Potenzial ist also eher das Wort, wenn man diese bewerten will.

Neben der visuellen Wahrnehmung der Assistenten, sei es durch die Kamera oder die Bildschirmaufzeichnung, ist vor allem die Sprachfunktion wegweisend. Denn das Voice Chating hat tatsächlich das Potenzial, Alltagsgewohnheiten zu ändern, weil die Bedienung so viel einfacher ist.

Besuch bei der Schwiegermutter am Sonntag, beim Mittagsessen landet das Gespräch bei Trippa alla Romana – einem lateinischen Gericht. Um die Frage nach den Zutaten zu beantworten, wäre das normale Vorgehen: Jemand nimmt das Handy in die Hand und verschwindet für die Recherche hinter dem Bildschirm. Unhöflich und abweisend. Die Sprachfunktion von ChatGPT – also die Variante, die im September 2023 veröffentlicht wurde, nicht die der GPT-4o-Präsentation – ist da aber wesentlich intuitiver.

Man legt das Gerät auf den Tisch, spricht die Frage ein und alle hören die Antwort. Und alle können dann auch direkt weitere Fragen stellen, selbst für wenig technik-affine Menschen wie die Schwiegermutter ist das keine Hürde. So wird der Assistent praktisch zum Gesprächsteilnehmer, was eine völlig andere Qualität hat als eine klassische Google-Recherche, bei der am Ende einer das Ergebnis vorliest.
Kleine ChatGPT-Anekdote vom Schwiegermutter-Besuch

Bei solchen Beispielen zeigt sich, wie überlegen die kommende Generation der AI-Assistenten im Vergleich zu Cortana, Google Assistant, Siri oder Alexa ist.

Was sich durch die Ankündigungen noch nicht ändert, sind die bekannten Probleme mit der aktuellen LLM-Generation. Allen voran zählt dazu das Halluzinieren, also Ausgabe von Falschinformationen, wenn die Datenbasis nicht passt.

Zahlen sind ebenfalls noch schwierig. Bei aktuellen Ereignissen wie den Ergebnissen von Fußballspielen lag ChatGPT früher schon daneben, selbst wenn die Quelle korrekt war. Und nach wie vor scheitert der Chatbot daran bei der Frage „Wie viel Buchstaben hat dieser Prompt?“ die konkrete Anzahl zu nennen – statt 33 lautet die Antwort 35. Zudem gibt es noch komplexere Angriffe wie das „Many-shot Jailbreaking“, mit dem sich Sicherheitsmechanismen aushebeln lassen. Bei solchen Attacken werden den Chatbots die Fortschritte wie die längeren Kontext-Fenster zum Verhängnis.

Die Schwächen sollte man im Hinterkopf haben. Von Film-Vorbildern wie Jarvis aus der Ironman-Reihe ist die aktuelle Assistenten-Generation weit entfernt. Für den Alltag heißt das: Eher allgemeine Fragen nach Gerichten wie „Trippa alla Romana“ lassen sich gut beantworten. Will man solche Rezepte dann auch nachkochen, sollte man die Zutatenliste aber besser sehr genau ansehen.

Erkenntnis 2: KI zementiert die Macht von Big-Tech

Auffällig bei Präsentationen von OpenAI, Google und Microsoft ist, wie sehr der Funktionsumfang die Qualität der Chatbots bestimmt. Mit Benchmarks lässt sich das kaum erfassen. So kann sich GPT-4o zwar laut OpenAIs internen Tests an die Spitze setzen, ist aber nur unwesentlich schneller als GPT-4 Turbo, das im November 2023 präsentiert wurde. Dasselbe gilt für Google. Gemini 1.5 Pro und Flash gelten als neue Flaggschiffe, übertrumpft wird Gemini Ultra aber nicht.

Keine nennenswerten Fortschritte bei der Performance sind aber auch nicht so relevant. Stattdessen sind es die multimodalen Funktionen wie die visuelle Wahrnehmung sowie das Einbinden der Assistenten in das jeweilige Ökosystem, die das Potenzial erkennen lassen.

Personalisierte Assistenten brauchen persönliche Daten

Welche Datenbasis verfügbar ist, wird zu einem der maßgeblichen Kriterien für die Qualität der Assistenten. Die Strategien der Big-Tech-Konzerne unterstreicht das. Während der Copilot die Windows-Daten nutzt, verknüpft Google bei Gemini die Suchmaschine mit Apps wie Gmail und Docs, um Nutzer über Anwendungen hinweg zu unterstützen. Selbst OpenAI ermöglicht Nutzern nun, ChatGPT an OnDrive und Google Drive anzudocken. Sollen die KI-Assistenten zu Alltagshelfern werden, die maßgeschneiderte Antworten liefern, scheint der Zugang zu persönlichen Daten unausweichlich.

Je mehr jedoch die Assistenten von bestehenden Ökosystemen sowie der Nutzerbasis profitieren, desto schwerer wird es für konkurrierende Anbieter, eine Nische zu finden. Was sich immer mehr abzeichnet: Die KI-Revolution zementiert die Macht von Big Tech weiter. Selbst vielversprechende Startups wie Anthropic, die leistungsstarke Modelle anbieten, sind auf Partner wie Amazon oder Google angewiesen. Allein schon, um die Milliarden-Summen aufzubringen, die für Entwicklung und Betrieb der KI-Systeme erforderlich sind.

Erkenntnis 3: Der erste Aufschlag des AI-PCs sitzt

Copilot+ PC ist nun Microsofts Konzept für den AI-PC, den man als völlig neue Generation anpreist. Mit einer NPU mit über 40 TOPS hat dieser besondere Hardware-Anforderungen. Neben dem erweiterten Windows Copilot bietet das Pluspaket zudem zusätzliche AI-Funktionen wie den Bildgenerator Cocreator, Windows Studio Effects, Super Resolution und den Übersetzer Live Captions. Alles Tools, die entsprechend den Vorgaben von Microsoft die Extra-Hardware benötigen.

Mit Preisen, die im Prinzip ab rund 1.400 Euro starten, positionieren sich die Copilot+-PCs von Microsoft sowie den OEM-Partnern wie Acer, Asus, Dell, HP und Lenovo im gehobenen Marktsegment. Und Microsoft erklärt offen, dass Apple das Ziel ist, für den Konkurrenzkampf sieht man sich gewappnet. Von Computern, die „uns verstehen, anstatt das wir sie verstehen müssen“, spricht CEO Satya Nadella.

Und tatsächlich: Der Start funktionierte. Erste Reaktionen waren vergleichsweise positiv, Feature wie Recall legen zudem nahe, warum eine NPU als Extra-Prozessor nötig ist.

Der Clou bei Recall, dass es sich praktisch um ein Gedächtnis für den Nutzer handelt. Der Assistent erfasst alles, was auf dem Bildschirm passiert, mit Snapshots und speichert diese in einem Modell, das mit natürlicher Sprache durchsuchbar ist. Wer zum Beispiel beim Online-Shopping nach bestimmten Jacken gesucht hat, kann die entsprechenden Webseiten somit noch Monate später wiederfinden. Dasselbe gilt für Auszüge in Word-Dokumenten, PowerPoint-Präsentationen oder Messenger-Diensten.

Do you want a photographic memory? The next best thing is Recall. Check out this new experience only available on Copilot+ PCs. Here is a demo from my colleague Carolina. pic.twitter.com/goylSXxslH
— Yusuf Mehdi (@yusuf_i_mehdi) May 20, 2024

Recall läuft komplett lokal, ermöglicht durch die NPUs. So umstritten diese Metrik ist, dass Recall keine Cloud-Anbindung hat, ist der Pluspunkt beim Datenschutz und der Sicherheit – und zeigt damit die Vorteile des Konzepts. Daten sollen demnach beim Nutzer bleiben, der zudem gezielt auswählen und kontrollieren kann, welche Informationen in den Recall-Modellen verarbeitet werden.

An dieser Stelle muss Microsoft auch um Vertrauen buhlen. Überschriften wie „Neue Windows-AI-Funktionen erfassen alles, was du auf dem PC machst“ (Ars Technica) klingen nicht nur nach Zukunft, sondern auch nach Dystopie. Nicht zu unrecht. Denn „alles“ heißt im Fall von Recall tatsächlich praktisch alles. Ausnahmen für vertrauliche Informationen gibt es von Haus aus nicht, selbst sensible Daten wie Passwörter – sofern die ohne Verschleierung eingegeben werden – oder Bankdaten landen im Modell, schreibt Microsoft im FAQ. Beim Online-Banking müssen Nutzer also selbst entsprechende Filter aktivieren. Standardmäßig ausgeschaltet ist Recall laut der FAQ hingegen, wenn Nutzer den Private-Mode des Edge-Browsers nutzen. Nicht erfasst werden zudem DRM-Inhalte, die urheberrechtlich geschützt sind.

Generell lautet die Wette mit neuen AI-Funktionen wie Recall aber: Nutzer sind bereit, sich noch mehr auf Microsofts Ökosystem einzulassen, als es bei den 365-Apps ohnehin schon der Fall ist. Das gilt inklusive aller Einschnitte in die Sicherheit und Privatsphäre, die mit einem solchen Cloud-System einhergehen.

Zweifel an Arm-Kompatibilität und beim Gaming

Nur weil der erste Aufschlag beim AI-PC sitzt, heißt das aber noch lange nicht, dass man am Ende auch den Satz holt. Stolpersteine gibt es immer noch mehr als genug:

Software-Kompatibilität ist die große Baustelle der Arm-Architektur. Microsoft verspricht aber Besserung. Praktisch alle Microsoft-Anwendungen existieren nun als native ARM64-Apps, hinzu kommen noch weitere Prominente Programme wie Chrome, Spotify, Zoom, und DaVinci Resolve. Die Apps, in der Menschen 87 Prozent ihrer Zeit verbringen, die eine native Arm-Version haben.
58 Prozent schneller als das MacBook Air bei der Multithreading-Performance, mehr NPU-Power und längere Akkulaufzeiten sind Microsofts Kernbotschaften. Ob solche – eher abstrakten – Werte ausreichen, um Apple-Nutzer vom Wechsel des Ökosystems zu überzeugen, bleibt zweifelhaft.
Bei typischen Windows-Nutzern stellt sich hingegen die Frage, wie groß die Käuferschicht ist, die 1.400 Euro und mehr für ein Arbeits-Laptop ausgeben will. Hier könnten viele schlicht abwarten, bis das Copilot+-Upgrade voraussichtlich im Herbst für alle Windows-11-PCs verfügbar ist, die ausreichend NPU-Performance bieten.

Modelle mit Intel und AMD-Prozessoren sind dann wohl auch ein Fall für Spieler. Denn Gaming-Maschinen sind die neuen Windows-on-Arm-PCs nicht, so viel ist absehbar. Weniger anspruchsvolle Titel wie Baldurs Gate 3 oder Borderlands 3 sollen aber immerhin 30 FPS in Auflösungen von 720p bis 1080p erreichen.

Noch profitieren die Arm-Geräte von der Exklusivität. Erst wenn Intel und AMD nachziehen, wird sich jedoch zeigen, ob und was für ein Markt für Windows on Arm existiert.

Arm-Windows-Notebooks: Bringen Qualcomm Snapdragon X und AI den Durchbruch?

Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.

Microsoft Build 2024 (21.–23. Mai 2024): Alle News auf der Themenseite!

Copilot+, GPT-4o & Gemini: Die Next-Gen-AI-Assistenten könnten tatsächlich nützlich sein
Privatsphäre bei Copilot+: Microsoft beschreibt, wie Recall mit Daten umgeht
Windows 11 24H2: Microsoft verteilt Funktionsupdate im Preview-Release-Channel
+7 weitere News