News Arc Pro B60 Single-GPU: 24 GB VRAM gibt es bei Intel jetzt ab 599 US-Dollar

Nu ist Intel ja nicht gerade der Anführer vom KI-Zug - auch im Gaming-Bereich "eher" Dritter. Was genau macht man mit der Karte und 24GB ?
Natürlich (??) könnte man KI auch langsamer berechnen und 24GB helfen dabei bestimmt. Aber gibbet denn entsprechende KI-Software für die Intel-Produkte??
 
Intel schließt immer weiter zu AMD und Nvidia auf - ich bin schon sehr gespannt, wie sich die Arc Pro B60 mit 24 GB VRam im Vergleich zu den gängigen AMD- oder Nvidia-Grafikkarten schlägt. :daumen:
 
Crifty schrieb:
Bin eher gespannt wie lange Intel den Leuten erzählen will, das es noch in Zukunft Arc geben wird, obwohl alle wissen das es bald keine Arc mehr geben wird.
Intel hat doch bestätigt, dass die weiterhin GPU's machen werden und sei es nur iGPU's, aber sie werden sie weiterhin bauen.
 
Der Puritaner schrieb:
Aber Klar, das ist eine Politische Verschwörung gegen Spieler und wer weis noch was.
Das meinte ich nicht. Ich meinte Produktpolitik. Man gibt dem Kunden nur das, was er heute braucht, und begrenzt durch die Limitierung die Nutzungsdauer um ein Upgrade früher herbeizuführen, als es rein von der Rohleistung des Chips erforderlich wäre. Bei der 5080 ist das aktuell am offensichtlichsten.
 
Wenn dann ist es eine reine Verschwörung von AMD und NVIDIA gegen die Gamer.
Damit werden Kosten für 24 GB VRAM für die Lieferung von 16 GB VRAM vom
Käufer verlangt! :stock: :D
 

Anhänge

  • Intel Arc Pro B60 Passive 24GB(M1).png
    Intel Arc Pro B60 Passive 24GB(M1).png
    242 KB · Aufrufe: 54
  • Intel Arc Pro B60 Passive 24GB(M5).png
    Intel Arc Pro B60 Passive 24GB(M5).png
    217,8 KB · Aufrufe: 59
  • Gefällt mir
Reaktionen: konkretor und JumpingCat
CadillacFan77 schrieb:
Naja, bei mehr als einer Karte ist die Speicherbrandbreite wiederum weniger als die Hälfte von Strix Halo und 24GB ist zwar net wenig, aber halt auch nicht wirklich viel für Modelle.
Falsch - bereits eine dieser Karten bietet die doppelte Bandbreite, 2 Karten mit jeweiligem x8 Steckplatz bieten dementsprechend die vierfache Bandbreite von Strix Halo …

Mainboards mit 7x PCIe >x8 gibt es auch mehr als genug, hier sind also sogar ganz ohne PCIe Bifurcation bereits 40GB mehr als bei Strix Halo möglich - mit entsprechend deutlich mehr Leistung …
Oder eben einfach auf gebrauchte RTX 3090 setzen, bevor man für 2.500€ auf ein Strix Halo System mit entsprechend schwacher Leistung setzt …
 
  • Gefällt mir
Reaktionen: Col. Jessep und konkretor
Chismon schrieb:
Aber hey, Hauptsache irgendeinen negierenden Unsinn absondern bzw. billige Meinungsmache betreiben, egal ob man damit komplett daneben liegt :rolleyes:.
Das hat wenig mit Meinungsmache zu tun, viel mehr mit den aktuellen Gegebenheiten. Intel steht das Wasser bis zum Hals, die höheren Posten sind quasi ein Platz mit Drehtür geworden und gleichzeitig wendet man sich schon vor einem Jahr an NVIDIA, obwohl man ganz stark hinter seiner schwächelnden Grafikkarten steht…

Sorry aber das sind mir ein Paar zuviele Zufälle. Außerdem sprach ich auch von den ARC Sachen, also dezidierte Grafikkarten, nicht von der Grafikeinheit auf den CPUs.

Natürlich will Intel weiterhin Produkte verkaufen, daher auch die Meldung „keine Panik, wir machen weiter mit der Grafiksparte“… Nur all die Aktionen aktuell sprechen eine ganz andere Sprache, nämlich das es in Zukunft nix dezidiertes mehr geben wird und das Intel in Zukunft normale CPUs mit der eigenen Grafiklösung anbietet und die Performance und Highend Chips dann mit NVIDIA.
Intel fehlt schlicht die Kohle um diese Mega Firma weiter zu finanzieren, selbst mit dem 5 Mrd. von NVIDIA ist das aktuell nur ein kleiner Aufschub.
 
Crifty schrieb:
Sorry aber das sind mir ein Paar zuviele Zufälle. Außerdem sprach ich auch von den ARC Sachen, also dezidierte Grafikkarten, nicht von der Grafikeinheit auf den CPUs.
Du glaubst doch nicht ernsthaft, dass igpus in den Brot und Butter CPUs NV werden?

Die werden wir in der Oberklasse und vlt APUs sehen. Aber nicht in den Abermillionen Office PCs.
 
Crifty schrieb:
Nur all die Aktionen aktuell sprechen eine ganz andere Sprache, nämlich das es in Zukunft nix dezidiertes mehr geben wird und das Intel in Zukunft normale CPUs mit der eigenen Grafiklösung anbietet und die Performance und Highend Chips dann mit NVIDIA.
@Alphanerd
Das habe ich doch geschrieben, normale Lösungen von Intel, alles im Premiumsegment dann von NVIDIA.
 
  • Gefällt mir
Reaktionen: Alphanerd
Bin ja vor allem an Proxmox und vGPU interessiert, endlich mehrere VMs pro GPU ohne Gefrickel, wenn ich das richtig verstehe..
 
  • Gefällt mir
Reaktionen: JumpingCat
MalWiederIch schrieb:
Falsch - bereits eine dieser Karten bietet die doppelte Bandbreite, 2 Karten mit jeweiligem x8 Steckplatz bieten dementsprechend die vierfache Bandbreite von Strix Halo …
Das sieht die KI aber anders, ohne nVLink oder vergleichbare Technologie bringen Multi-GPU Setups vielfach nicht viel, ausser Du hast sehr viele kleine Abfragen die Du innerhalb der gleichen GPU abhändeln kannst, was aber nicht so trivial bei der Konfiguration ist.
Hast Du ein grosses Model, ist eine unified memory Umgebung deutlich besser.

Da ist nix mit "verdoppelt sich die Bandbreite", im Gegenteil.

Assumptions (kept explicit)​


  • Model: 90 GB (single model sharded across 4 × 24 GB Arc Pro B60).
  • Arc Pro B60 per-GPU local memory bandwidth: 456 GB/s (GDDR6, per earlier numbers).
  • Strix Halo SoC memory: 96 GB LPDDR5-8633 on 256-bit bus → ≈276 GB/s (bandwidth ≈ 8633 MT/s × 256/8).
  • PCIe 5.0 ×8 theoretical bandwidth per direction: ≈31.5 GB/s (Gen5 ×16 ≈63 GB/s → ×8 ≈31.5 GB/s). We'll treat this as the available P2P bandwidth for GPU↔GPU transfers.
  • Typical transformer (example numbers for a realistic large model): hidden size = 12,288, #layers = 70, FP16 = 2 bytes / activation element. (These figures are representative of 50–100B-class models; you can plug your model’s precise hidden size / layers if different.)

If you want different hidden_size / layers / seq_len, tell me and I’ll recalc — but I’ll proceed with these numbers.




Useful intermediate numbers​


  • Activation bytes per token per layer = hidden_size × bytes_per_element
    = 12,288 × 2 = 24,576 bytes24.576 KB.
  • Activation bytes for a whole context (sequence length L): 24,576 × L bytes.
    For L = 2048 → 24,576 × 2048 = 50,331,648 bytes ≈ 50.33 MB.
  • PCIe5 ×8 bandwidth = 31.5 GB/s = 31,500 MB/s.



Scenario A — full forward of context (L = 2048)​


This models the case where each layer needs to exchange the entire sequence activations (common for some distributed kernels or large-batch processing).


  • Bytes exchanged per layer (per GPU) ≈ 50.33 MB.
  • Time to transfer that over PCIe5×8 (one direction) = 50.33 MB / 31,500 MB/s ≈ 0.001598 s = 1.598 ms per layer.

If this transfer must be done for each of 70 layers (and assuming it cannot be completely overlapped away or reduced by algorithmic tricks), total inter-GPU communication time ≈
1.598 ms × 70 ≈ 111.9 ms just spent on PCIe transfers for one full forward.


Compare that to Strix Halo: the Halo avoids any PCIe cross-device transfers because the whole 90 GB model can live in one unified 96 GB addressable memory. There is no inter-GPU PCIe cost in this scenario. The Halo’s lower local memory bandwidth (≈276 GB/s vs 456 GB/s on a B60) will make on-device memory-bound compute slower, but you avoid ~112 ms of PCIe communication per full forward.


So for full-context forward / scoring with long sequences (L ~ 2048), the Strix Halo is very likely to be faster overall for a single-instance run — unless you can restructure the workload to avoid the full-sequence transfers or hide them behind compute extremely well. The ~112 ms PCIe penalty is large and typically dominates.




Scenario B — autoregressive single-token generation (KV cache)​


This models generation where you only compute the new token and append KV cache; per-layer the data you must exchange is only for the new token (much smaller).


  • Bytes exchanged per layer for new token = 24.576 KB.
  • Time per layer over PCIe5×8 = 24.576 KB / 31.5 GB/s = 24,576 B / 31.5e9 B/s ≈ 7.81e-7 s = 0.000781 ms per layer.
  • For 70 layers total ≈ 0.0547 ms of PCIe transfer time per generated token.

That 0.055 ms of communication overhead per token is essentially negligible. In this case:


  • Each Arc B60 has much higher local memory bandwidth (456 GB/s) than the Strix Halo (276 GB/s) → roughly a 1.65× advantage in memory-bound per-GPU work.
  • If your model is sharded such that each GPU does a big fraction of per-layer work locally and communication per new token is tiny (as shown), the 4× Arc Pro B60 setup can deliver higher per-token throughput / lower latency than the single Strix Halo (assuming the implementation overlaps compute and that the small PCIe exchanges are handled efficiently).

So for autoregressive generation with KV caching, one token at a time, the 4× Arc Pro B60 (PCIe5×8) is likely faster than the Strix Halo — because PCIe x8 is plenty for the tiny per-token exchanges and the B60s’ significantly higher on-card bandwidth and compute wins.




Net takeaway (concise)​


  • If your workload processes long contexts / large batches where full-sequence activations are being exchanged across GPUs (e.g., evaluating or training over L=2048 or similar), PCIe 5.0 ×8 causes large inter-GPU transfer time (~112 ms in my example). That makes the Strix Halo (96 GB unified LPDDR5) the better choice for single-instance latency and simpler correctness — even though Halo’s on-chip bandwidth is lower (≈276 GB/s vs 456 GB/s on a B60). The elimination of large PCIe transfers typically dominates in that case.
  • If your workload is autoregressive generation (KV cache) or otherwise has only tiny per-step communication (new token exchanges), PCIe 5.0 ×8 is sufficient and the 4× Arc Pro B60 array will likely be faster thanks to higher local bandwidth and more aggregate compute — provided your software can efficiently shard and overlap communication/computation.



Quick sensitivity notes / caveats​


  • I used hidden_size=12,288, layers=70, L=2048 as a concrete example — change those and the numeric communication times scale linearly. (E.g., smaller hidden_size or shorter L reduces the PCIe penalty proportionally.)
  • I assumed transfers cannot be fully hidden by overlapping — in real optimized systems you can often overlap some fraction of comm with compute (pipeline/tensor parallel overlap) which reduces the effective PCIe penalty. How much you can hide depends heavily on framework & kernels.
  • PCIe real-world throughput is lower than theoretical peak due to protocol overheads, contention, and host CPU involvement; so the numbers above are optimistic for the multi-GPU case — real latency could be worse.
  • If you can quantize/stream weights, or use activation/computation slicing to reduce transfer sizes, you can tilt the balance toward the multi-GPU setup.

Fairerweise ist Arc jedoch deutlich im Vorteil, wenn es um KI Training von kleineren Modellen (20GB oder so) geht, da dort die Last aufgeteilt werden kann und der VRAM nicht das Limit ist und der Overhead vom PCIe im Gesamtprozess verschwindend klein ist.
 
Zuletzt bearbeitet:
Schön zu sehen, dass auch mal für günstigere Karten der VRAM ansteigt.
 
  • Gefällt mir
Reaktionen: Zensored und Alexander 65
HOCLN2 schrieb:
Intel hat doch bestätigt, dass die weiterhin GPU's machen werden und sei es nur iGPU's, aber sie werden sie weiterhin bauen.
Einen Scheiss haben sie ;).
Pardon aber man kanns nicht anders ausdrücken.
Man sagte, man sei den angekündigten Produkten "weiterhin verpflichtet", was natürlich erstmal nach "wir machen mit GPUs weiter" klingt.
Aber wörtlich kann das alles mögliche heissen. Sogar noch 2 Jahre Support für vorhandene Hardware und dann Ende im Gelände könnte man so beschreiben.
Das wirds wohl kaum, aber die Aussage ist einfach ein Platzhalter um sich alle Möglichkeiten offen zu lassen.

Dazu kommen zwei Dinge, eins hast du schon erwähnt:
Es könnten nur iGPUs sein. Das fällt zwar technisch in dieselbe Kategorie, aber es ist offensichtlich, dass der Durchschnittsgamer das genauso als ARCs Tod ansehen würde. Es geht halt defacto nur um dGPUs.

Last but not least: Was juckt Unternehmen ihr Geschwätz von gestern? Nichts davon ist ja rechtlich bindend. Es gibt mehr als genug Beispiele, bei dnen binnen kürzester Zeit 180° Kehrtwenden gemacht wurden. Jetzt nicht nur bei Intel, sondern quasi überall.
Warum sollte man sich also darauf verlassen? Selbst wenn Intel heute groß ausposaunt, dass ARC noch mindestens 5 Gens bekommt können sie es nächste Woche einstampfen und was von veränderten Umständen erzählen. Glaubt das dann jemand? Nee. Aber hats Konsequenzen, ausser vielleicht nem Sturm im Wasserglas aka Shitstorm?
Auch nicht.

Long Story Short: Keine Ahnung wie und ob es mit ARC weitergeht, aber Intels Aussagen dazu werden die Frage nicht beantworten. Das wird nur die Zeit.
Ergänzung ()

Chismon schrieb:
Scheinbar spekulierst Du nur unwissend hier ohne einen blassen Schimmer, anstatt Dich besser zu informieren, da Intel sich scheinbar weiterhin der GPU Roadmap verpflichtet sieht.
"Scheinbar" solltest du mal nachschlagen.
 
  • Gefällt mir
Reaktionen: Alexander 65
@Chismon Das ist mal ein Argument. So reagiert man erwachsen. Respekt...
 
  • Gefällt mir
Reaktionen: Der Puritaner
Zurück
Oben