News SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
20.000
SPEC war mal Referenz-Benchmark, verlor aber zunehmend an Relevanz. Mit CPU 2026 will man diese ein wenig wiedererlangen, mit alten Tugenden. Neue Tests decken dabei ein breites Feld ab. Da der Fokus aber primär auf das Server-Segment gerichtet bleibt, ist es die Bedienbarkeit auch: Noch immer geht alles nur via Kommandozeile.

Zur News: SPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu
 
  • Gefällt mir
Reaktionen: the_IT_Guy, Haldi, MaverickM und 5 andere
Super, wie sieht es mit Support für Apple M CPUs aus? Vllt. kriegen wir dann mal den grässlichen Geekbench aus den Foren 😅
 
  • Gefällt mir
Reaktionen: the_IT_Guy
Kann doch nicht so schwer sein, mal etwas Komfort zu bieten.

Die schießen sich ja selber ins Bein, wenn es nicht wenigstens ne taugliche Default-Config oder Erkennung verfügbarer Cores und sowas gibt.
 
War das nicht der Benchmark, wo der Hersteller Intel gefragt hatte, wie man am besten CPUs testet ? ;)
Quelle

Besser Tests mit den selbst genutzten Anwendungen lesen, als sich auf synthetische Benchmarks wie SPEC CPU verlassen.
 
  • Gefällt mir
Reaktionen: SweetOhm, usernamehere und KeinNutzerName
@Flutefox
Und was ist an Geekbench jetzt konkret schlimmer/besser als am SPEC-Benchmark? Interpretieren können muss man ja Beide und ob die Lastfälle bei SPEC jetzt näher am Endkunden sind, ist auch fraglich.
Naja und die armen Tester, die das Ding laufen lassen müssen. Es ist ein Zeitfresser ohne Ende und am Schluss muss man sich in der Diskussionen für jeden Compilerflag, benutzte Bibliotheken rechtfertigen.

@R4Z3R
Hmm, ein Benchmark, der 30 Seiten A4 Text an Regeln hat, aus dem Quellcode selber gebaut werden sollte mit Laufzeiten >1h und sich an Betreiber dicker Systeme richtet soll komfortabler werden?
Ergänzung ()

@Cerebral_Amoebe
Das was du schreibst und was du als Quelle verlinkst passen nicht zueinander. Das was du verlinkst ist, eine dokumentierte Manipulation der Benchmarkergebnisse, weil Intel seine Compiler auf diesen Benchmark optimiert hat, ohne dass die Optimierungen Vorteile für sonstige Anwendungen bieten.
 
  • Gefällt mir
Reaktionen: 12nebur27, Volker, ETI1120 und eine weitere Person
Naja, 'ne GUI zu schreiben, die die Befehle ausführt, kann ja heute fast jeder mit KI... ;-)
Der SPEC-Benchmark ist ja hauptsächlich für Gesamtsysteme relevant, die sehr spezifische Anwendungsfelder haben.
Eventuell kann ja CB den Podcast als Online-Lecture ausarbeiten und noch ein Volontariat für Tech-Journalisten anbieten und eine günstige Lizenz erwerben.
 
R4Z3R schrieb:
wenn es nicht wenigstens ne taugliche Default-Config oder Erkennung verfügbarer Cores und sowas gibt.

Command Line Installation und Nutzung ist wirklich kein Problem, aber wie Du schon schreibst: Eine funktionierende Default-Config sollte eigentlich schon dabei sein. Das ist wirklich eher ein Armutszeugnis.
 
Ja das ging leider nicht. Hab das installiert und auch so einiges probiert, aber du bist gewzungen zuerst in Configs und anderen Dateien was zu editieren, sonst startet da nix. Und da hatte ich keine Zeit für, mich hier nun Stunden einzuarbeiten .. und schon gar keine Zeit irgend ein System mal 2 Tage dafür abzustellen .. und es dann noch in irgend einen Fehler laufen zu lassen :D

Dafür ist der Benchmark dann letztlich auch nicht wirklich relevant genug für uns. Denn es gehen halt für jeden Test immer mehrere Tage drauf, und wie schon erkannt, muss man sich dann mit 2,3 Leuten hier vermutlich streiten, warum dies so und da so gemacht wurde.


Sie hätten eine "Easy"-Version oder ein abgespecktes Rumpfpaket machen sollen, wie das Workstation-Paket. Da gibt es nen Windows-Installer, eine einfache bedienbare Oberfläche, du kannst darin auswählen welche der 23 Tests du machen wollst, nur wenn du alle machst, gibt es nen finalen Score der abgesegnet werden kann. Wenn man mehr Verbreitung will, dann wäre das der Weg, die Skalierung von dem ist ja auch schon brutal: https://www.computerbase.de/artikel...eite-2#abschnitt_leistung_in_workstationtests


edit @BrollyLSSJ unter mir: Im Text war auch auch Apple Macbook mit M5 Pro erwähnt und sogar nen Bild vom Ergebnis in zweifacher Form dabei ;)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: the_IT_Guy, MaverickM und R4Z3R
Flutefox schrieb:
Super, wie sieht es mit Support für Apple M CPUs aus?
Ich würde behaupten: Ja. Könntest ja auf der System Requirements Seite mal gucken.

1777986514651.png1777986122365.png
 
  • Gefällt mir
Reaktionen: Flutefox
B226 schrieb:
Naja, 'ne GUI zu schreiben, die die Befehle ausführt, kann ja heute fast jeder mit KI... ;-)
Und die ist dann in Electron xD

Balkoth schrieb:
Android und iPhone CPUs sind da raus oder?
Da Raspberry unterstützt wird sollte das gehen.
Beides ARM64 basierend.
Nur obs unter Android läuft... Und welches Gerät 64GB RAM hat...
Ich glaub die Redmagic 11 mit 24GB sind momentan so die Smartphones mit am meisten RAM.

BrollyLSSJ schrieb:
Ich würde behaupten: Ja.
Oha. Sogar RISC-V Support.
Also da glaube ich sofort an die 30+ stunden pro Run.
 
Die SPEC-Website bietet auch die eingereichten Ergebnisse zum Ansehen an, aber leider keine Grafiken. Die muss man sich (am einfachsten mit Python-Code) selbst erzeugen. Besonders interessant sind die Ergebnisse für Single-Threaded-Tests (siehe Bilder im Anhang).

PS: Ich habe den Code dafür irgendwo aus dem Netz vor Jahren genommen und heftig umgeschrieben. Ich war aber zu faul Vektor-Grafiken damit erstellen zu lassen. Das war noch bevor das easy mit LLMs möglich war. Der Code erzeugt also nur Raster-Grafiken. Deswegen sind die auf 2x hoch skaliert und geschärft (mit Linux-Befehl convert).

PS2: Die Ergebnisse sind mit und ohne SIMD, also gemischte Ergebnisse. Die Tools die in den SPEC-Benchmarks genutzt werden, bspw. für Kompression, können ja SIMD nutzen und dann sind die Ergebnisse eben mit SIMD. Es ist also bei den Single-Threaded-Egebnissen von SPEC keineswegs sicher dass der Maschinen-Code, keine SIMD-Befehle laufen ließ, d.h. nur GP-Befehle (general purpose). Es ist nur sicher dass es kein Multi-Threading war.

PS3: Unter den eingereichten SPEC-Egebnissen gibt es kaum welche die das Wort "Ryzen" enthalten (es sind genau 7 Modelle und auch 7 Ergebnisse). Und selbst dann kann es "Ryzen Threadripper" sein (siehe Anhang TXT: Zeile 27 und Zeilen 1446 bis 1457). Die meisten AMD-Ergebnisse enthalten das Wort "EPYC" (fast 2000). Allerdings gibt es mehr als 16000 Ergebnisse (nicht Modelle) mit dem Wort "Xeon". Die Ryzens sind auffällige rote Punkte in den zwei Grafiken damit man sie leichter erkennen kann. Davon sind die neuesten/stärksten Ryzens/Threadrippers: "Ryzen 9 7950X (4500 Mhz)" und "Ryzen Threadripper PRO 3995WX (2700 Mhz)" (siehe TXT).

PS4: Ich habe den originalen Blog-Artikel (von 2012) mit dem originalen Code gefunden: A Look Back at Single-Threaded CPU Performance. Originaler Code ist bei GitHub, hat aber keine Lizenz-Angabe (also wohl copyright). Wie schon erwähnt, mein Code ist heftig umgeschrieben.

PS5: Mir ist gerade etwas zu EPYC-CPUs an den Grafiken aufgefallen (siehe fp_epyc_beobachtung.png und fp_graph_2x_mit_epyc_beobachtung.jpg).
 

Anhänge

  • int_graph_2x.jpg
    int_graph_2x.jpg
    478,1 KB · Aufrufe: 16
  • fp_graph_2x.jpg
    fp_graph_2x.jpg
    502,3 KB · Aufrufe: 14
  • identified_cpus.txt
    identified_cpus.txt
    545,8 KB · Aufrufe: 4
  • fp_graph_2x_mit_epyc_beobachtung.jpg
    fp_graph_2x_mit_epyc_beobachtung.jpg
    325,2 KB · Aufrufe: 7
  • fp_epyc_beobachtung.png
    fp_epyc_beobachtung.png
    128,8 KB · Aufrufe: 7
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: the_IT_Guy
Wenn SPEC an Relevanz verloren hat, was hat dann übernommen?

R4Z3R schrieb:
Kann doch nicht so schwer sein, mal etwas Komfort zu bieten.
Komfort ist relativ schätze ich. Ich durfte in der Ausbildung etwas mit SPEC MPI 2007 'herumspielen'. Das ist einfach nicht als 'one-click' benchmark gedacht. Wenn man aber z.b. HPC Cluster nicht nur mit dem top500 Linpack run vergleichen will nimmt man eben SPEC. Da die Systeme aber so unterschiedlich sind probiert man erstmal eine weile herum um gute Einstellungen zu finden. In meinem Fall hing die Performance iirc sehr vom Compiler ab. Gab einen optimierten von AMD (Bulldozer war damals recht frisch), den icc von Intel und den gcc. Jeweils in mehreren Versionen natürlich, sonst wäre es ja fast einfach. Einmal spielt die Version evtl schon eine Rolle und ebenfalls iirc ließ sich der icc mit etwas überzeugungsarbeit auch dazu bringen deutlich schnelleren code zu produzieren als mit simplem -march=native (oder was die icc entsprechung dazu ist)
Ich glaube mich auch zu erinnern dass SSE zum teil schneller lief als avx obwohl die doppelte vektorlänge theoretisch schneller sein sollte. Mit dem AMD Compiler gab es irgendwelche Probleme, aber wenn der richtig lief kamen teils auch deutlich bessere ergebnisse raus.
Sowas gehört denke ich mit zum Anwendungsgebiet für die SPEC Benchmarks und das geht eben nur mit etwas fummelei und lokal kompilieren.
Man testet nicht einfach nur CPUs sondern ggf. Compiler, Flags, ggf. Kerneleinstellungen und die Systemarchitektur drumherum. Das ist etwas völlig anderes als die typischen Desktop Benchmarks die man fertig runterlädt, startet und dann eine Punktezahl präsentiert bekommt.
In der Hinsicht ist das was SPEC liefert wohl durchaus komfortabel. Könnte schlimmer sein als seine configs anpassen und den nächsten durchlauf starten.
 
Nur wozu 3000€? Es ist ein Benchmark...wer braucht explizit das
 
Flutefox schrieb:
Super, wie sieht es mit Support für Apple M CPUs aus? Vllt. kriegen wir dann mal den grässlichen Geekbench aus den Foren 😅
steht im Text, läuft. Macht aber nicht wirklich Sinn, bestenfalls auf den Max/ Ultra und dann mit min 6 GB RAM Ausbau.
Ergänzung ()

R4Z3R schrieb:
Kann doch nicht so schwer sein, mal etwas Komfort zu bieten.

Die schießen sich ja selber ins Bein, wenn es nicht wenigstens ne taugliche Default-Config oder Erkennung verfügbarer Cores und sowas gibt.
SPEC muss man sich zusammenbauen und entsprechend über Config Files so einstellen wie man es braucht. Das ist kein klickibunti Geekbench Blödsinn, damit kann man echte Maschinen richtig testen, reproduzierbar und vergleichbar. Es sei denn, man macht es wie Intel, kompiliert die Suit für die eigenen CPUs mit optimierenden Compiler, für AMD mit Defaultwerten...

SPEC CPU 2017 / Intel oneAPI – Februar 2024
"Die Standard Performance Evaluation Corporation (SPEC) hat festgestellt, dass Intels oneAPI DPC++-Compiler auf eine Weise optimiert worden war, die gegen SPECs Regeln verstößt – was zur Disqualifizierung von über 2.600 SPEC-CPU-2017-Benchmark-Ergebnissen für Intel-Prozessoren führte. (https://www.guru3d.com/story/spec-i...results-due-to-custom-compiler-optimizations/)

Dazu der bekannte:
"Intel MKL / CPU Dispatcher (~2007–2020)"

Was das angeht ist Intel als das VW der Chipbranche. Sie haben extra Arbeit und Aufwand betrieben um Ergebnisse zu fälschen.


Ich habe mal gesehen wie jemand seine neue Serverhardware mit dem SPEC Benchmark selbst getestet hat, mit entsprechenden Einstellungen, wie sie es im Unternehmen genutzt haben. Den Lauf natürlich nicht, aber als ich später mal wieder da war hatte er mir die Ergebnisse mal gezeigt. Konnte ich so wirklich nicht viel mit Anfangen, klar Score XY ist besser als beim alten System, aber was es unterm Strich bedeutet ist halt schwer für einen Noob abzulesen. Er hat mir dann nur die offiziellen (damals Intel) und seine Ergebnisse gezeigt. Das war aber noch, bevor die o.g. "Anpassungen" aufgedeckt wurden. Auf jeden Fall sagte er mir, dass die neuen Systeme nicht die Leistung gebracht haben, die sie bringen sollten, das was an Leistung rüber kam passte mit dem Benchmark überein, aber eben nicht mit den Werten nach denen das System gekauft wurde. Ein Jahr später wusste er weshalb.. So etwas findest du nicht mit den Spielzeug Benches raus. Heise hat auch immer SPEC benutzt, ebenfalls selbst kompiliert, teilweise auch mit anderen Ergebnissen als (überwiegend Intel) präsentiert hat.
 
Zuletzt bearbeitet:
Zurück
Oben