Rickmer schrieb:
Wofür der 5-fache Cache?
Cache bringt doch bei LLMs kaum was, das sieht man wenn man mal eine RTX 3090 vs 4090 Performance vergleicht.
Die 3090 ist kaum langsamer als die 4090 - weil die 4090 kaum mehr Speicherbandbreite hat und das beim Gaming durch den neuen riesigen L2 Cache kompensiert.
Stell dir ein Einkaufszentrum vor, das nur wenige Parkplätze direkt am Eingang hat. Wenn mehr Autos kommen, müssen sie vom großen Parkplatz im nächsten Ort über eine
enge Landstraße anreisen.
Jetzt stell dir vor, der Parkplatz direkt am Eingang wird vergrößert – doppelt so groß. Das klingt erst mal gut, oder? Aber die
enge Landstraße ist immer noch der Flaschenhals: die Autos kommen nicht schneller an, sie stauen sich trotzdem. Der größere Parkplatz kann also
nicht mehr Autos aufnehmen, weil einfach nicht genug Nachschub über die Straße kommt.
Genau das passiert bei GPUs mit LLMs: der L2/L3-Cache ist wie der Parkplatz, der Speicher (GDDR6) wie die Landstraße.
Wenn die Bandbreite des Speichers nicht reicht, bringen größere Cache-Mengen kaum etwas, weil die ALUs trotzdem auf Daten warten müssen.
Bei spezialisierten AI-Chips wie Trainium/TPU ist die Straße viel breiter und es gibt Brücken zwischen Parkplätzen (Fusion/NVLink), sodass
mehr Autos gleichzeitig ankommen. Deshalb können größere Caches dort auch tatsächlich den Durchsatz steigern.“
Bei AI fällt und steht alles über die Bandbreite. Deshalb ist auch die Gewaltigen Sprünge zwischen CPU, GPU und TPUs....
CPU AI so extrem langsam gegenüber GPU, die oft mehr die das schon viel besser kann, weil vram schneller als ram. Aber ist noch immer eigentlich "nur" auf Pixel optimiert. Bei TPU/NPU Lösungen steht nicht mehr Pixel sonder t Int4/8 werte im Fordergrund.
Sprich, du hast einen riesigen Industriepark mit einem riesigen Parkplatz, wo praktisch jedes Auto eine eigene Autobahnspur zur Garage zu Hause hat.
Ist jetzt nur ein Bildliches Beispiel. Aber so in etwa kann man es sich vortsellen.