Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsSPEC CPU 2026: Moderner CPU-Benchmark bleibt der Kommandozeile treu
SPEC war mal Referenz-Benchmark, verlor aber zunehmend an Relevanz. Mit CPU 2026 will man diese ein wenig wiedererlangen, mit alten Tugenden. Neue Tests decken dabei ein breites Feld ab. Da der Fokus aber primär auf das Server-Segment gerichtet bleibt, ist es die Bedienbarkeit auch: Noch immer geht alles nur via Kommandozeile.
@Flutefox
Und was ist an Geekbench jetzt konkret schlimmer/besser als am SPEC-Benchmark? Interpretieren können muss man ja Beide und ob die Lastfälle bei SPEC jetzt näher am Endkunden sind, ist auch fraglich.
Naja und die armen Tester, die das Ding laufen lassen müssen. Es ist ein Zeitfresser ohne Ende und am Schluss muss man sich in der Diskussionen für jeden Compilerflag, benutzte Bibliotheken rechtfertigen.
@R4Z3R
Hmm, ein Benchmark, der 30 Seiten A4 Text an Regeln hat, aus dem Quellcode selber gebaut werden sollte mit Laufzeiten >1h und sich an Betreiber dicker Systeme richtet soll komfortabler werden?
Ergänzung ()
@Cerebral_Amoebe
Das was du schreibst und was du als Quelle verlinkst passen nicht zueinander. Das was du verlinkst ist, eine dokumentierte Manipulation der Benchmarkergebnisse, weil Intel seine Compiler auf diesen Benchmark optimiert hat, ohne dass die Optimierungen Vorteile für sonstige Anwendungen bieten.
Naja, 'ne GUI zu schreiben, die die Befehle ausführt, kann ja heute fast jeder mit KI... ;-)
Der SPEC-Benchmark ist ja hauptsächlich für Gesamtsysteme relevant, die sehr spezifische Anwendungsfelder haben.
Eventuell kann ja CB den Podcast als Online-Lecture ausarbeiten und noch ein Volontariat für Tech-Journalisten anbieten und eine günstige Lizenz erwerben.
Command Line Installation und Nutzung ist wirklich kein Problem, aber wie Du schon schreibst: Eine funktionierende Default-Config sollte eigentlich schon dabei sein. Das ist wirklich eher ein Armutszeugnis.
Ja das ging leider nicht. Hab das installiert und auch so einiges probiert, aber du bist gewzungen zuerst in Configs und anderen Dateien was zu editieren, sonst startet da nix. Und da hatte ich keine Zeit für, mich hier nun Stunden einzuarbeiten .. und schon gar keine Zeit irgend ein System mal 2 Tage dafür abzustellen .. und es dann noch in irgend einen Fehler laufen zu lassen
Dafür ist der Benchmark dann letztlich auch nicht wirklich relevant genug für uns. Denn es gehen halt für jeden Test immer mehrere Tage drauf, und wie schon erkannt, muss man sich dann mit 2,3 Leuten hier vermutlich streiten, warum dies so und da so gemacht wurde.
Sie hätten eine "Easy"-Version oder ein abgespecktes Rumpfpaket machen sollen, wie das Workstation-Paket. Da gibt es nen Windows-Installer, eine einfache bedienbare Oberfläche, du kannst darin auswählen welche der 23 Tests du machen wollst, nur wenn du alle machst, gibt es nen finalen Score der abgesegnet werden kann. Wenn man mehr Verbreitung will, dann wäre das der Weg, die Skalierung von dem ist ja auch schon brutal: https://www.computerbase.de/artikel...eite-2#abschnitt_leistung_in_workstationtests
edit @BrollyLSSJ unter mir: Im Text war auch auch Apple Macbook mit M5 Pro erwähnt und sogar nen Bild vom Ergebnis in zweifacher Form dabei
Da Raspberry unterstützt wird sollte das gehen.
Beides ARM64 basierend.
Nur obs unter Android läuft... Und welches Gerät 64GB RAM hat...
Ich glaub die Redmagic 11 mit 24GB sind momentan so die Smartphones mit am meisten RAM.
Die SPEC-Website bietet auch die eingereichten Ergebnisse zum Ansehen an, aber leider keine Grafiken. Die muss man sich (am einfachsten mit Python-Code) selbst erzeugen. Besonders interessant sind die Ergebnisse für Single-Threaded-Tests (siehe Bilder im Anhang).
PS: Ich habe den Code dafür irgendwo aus dem Netz vor Jahren genommen und heftig umgeschrieben. Ich war aber zu faul Vektor-Grafiken damit erstellen zu lassen. Das war noch bevor das easy mit LLMs möglich war. Der Code erzeugt also nur Raster-Grafiken. Deswegen sind die auf 2x hoch skaliert und geschärft (mit Linux-Befehl convert).
PS2: Die Ergebnisse sind mit und ohne SIMD, also gemischte Ergebnisse. Die Tools die in den SPEC-Benchmarks genutzt werden, bspw. für Kompression, können ja SIMD nutzen und dann sind die Ergebnisse eben mit SIMD. Es ist also bei den Single-Threaded-Egebnissen von SPEC keineswegs sicher dass der Maschinen-Code, keine SIMD-Befehle laufen ließ, d.h. nur GP-Befehle (general purpose). Es ist nur sicher dass es kein Multi-Threading war.
PS3: Unter den eingereichten SPEC-Egebnissen gibt es kaum welche die das Wort "Ryzen" enthalten (es sind genau 7 Modelle und auch 7 Ergebnisse). Und selbst dann kann es "Ryzen Threadripper" sein (siehe Anhang TXT: Zeile 27 und Zeilen 1446 bis 1457). Die meisten AMD-Ergebnisse enthalten das Wort "EPYC" (fast 2000). Allerdings gibt es mehr als 16000 Ergebnisse (nicht Modelle) mit dem Wort "Xeon". Die Ryzens sind auffällige rote Punkte in den zwei Grafiken damit man sie leichter erkennen kann. Davon sind die neuesten/stärksten Ryzens/Threadrippers: "Ryzen 9 7950X (4500 Mhz)" und "Ryzen Threadripper PRO 3995WX (2700 Mhz)" (siehe TXT).
PS4: Ich habe den originalen Blog-Artikel (von 2012) mit dem originalen Code gefunden: A Look Back at Single-Threaded CPU Performance. Originaler Code ist bei GitHub, hat aber keine Lizenz-Angabe (also wohl copyright). Wie schon erwähnt, mein Code ist heftig umgeschrieben.
PS5: Mir ist gerade etwas zu EPYC-CPUs an den Grafiken aufgefallen (siehe fp_epyc_beobachtung.png und fp_graph_2x_mit_epyc_beobachtung.jpg).
Komfort ist relativ schätze ich. Ich durfte in der Ausbildung etwas mit SPEC MPI 2007 'herumspielen'. Das ist einfach nicht als 'one-click' benchmark gedacht. Wenn man aber z.b. HPC Cluster nicht nur mit dem top500 Linpack run vergleichen will nimmt man eben SPEC. Da die Systeme aber so unterschiedlich sind probiert man erstmal eine weile herum um gute Einstellungen zu finden. In meinem Fall hing die Performance iirc sehr vom Compiler ab. Gab einen optimierten von AMD (Bulldozer war damals recht frisch), den icc von Intel und den gcc. Jeweils in mehreren Versionen natürlich, sonst wäre es ja fast einfach. Einmal spielt die Version evtl schon eine Rolle und ebenfalls iirc ließ sich der icc mit etwas überzeugungsarbeit auch dazu bringen deutlich schnelleren code zu produzieren als mit simplem -march=native (oder was die icc entsprechung dazu ist)
Ich glaube mich auch zu erinnern dass SSE zum teil schneller lief als avx obwohl die doppelte vektorlänge theoretisch schneller sein sollte. Mit dem AMD Compiler gab es irgendwelche Probleme, aber wenn der richtig lief kamen teils auch deutlich bessere ergebnisse raus.
Sowas gehört denke ich mit zum Anwendungsgebiet für die SPEC Benchmarks und das geht eben nur mit etwas fummelei und lokal kompilieren.
Man testet nicht einfach nur CPUs sondern ggf. Compiler, Flags, ggf. Kerneleinstellungen und die Systemarchitektur drumherum. Das ist etwas völlig anderes als die typischen Desktop Benchmarks die man fertig runterlädt, startet und dann eine Punktezahl präsentiert bekommt.
In der Hinsicht ist das was SPEC liefert wohl durchaus komfortabel. Könnte schlimmer sein als seine configs anpassen und den nächsten durchlauf starten.
SPEC muss man sich zusammenbauen und entsprechend über Config Files so einstellen wie man es braucht. Das ist kein klickibunti Geekbench Blödsinn, damit kann man echte Maschinen richtig testen, reproduzierbar und vergleichbar. Es sei denn, man macht es wie Intel, kompiliert die Suit für die eigenen CPUs mit optimierenden Compiler, für AMD mit Defaultwerten...
SPEC CPU 2017 / Intel oneAPI – Februar 2024
"Die Standard Performance Evaluation Corporation (SPEC) hat festgestellt, dass Intels oneAPI DPC++-Compiler auf eine Weise optimiert worden war, die gegen SPECs Regeln verstößt – was zur Disqualifizierung von über 2.600 SPEC-CPU-2017-Benchmark-Ergebnissen für Intel-Prozessoren führte. (https://www.guru3d.com/story/spec-i...results-due-to-custom-compiler-optimizations/)
Dazu der bekannte:
"Intel MKL / CPU Dispatcher (~2007–2020)"
Was das angeht ist Intel als das VW der Chipbranche. Sie haben extra Arbeit und Aufwand betrieben um Ergebnisse zu fälschen.
Ich habe mal gesehen wie jemand seine neue Serverhardware mit dem SPEC Benchmark selbst getestet hat, mit entsprechenden Einstellungen, wie sie es im Unternehmen genutzt haben. Den Lauf natürlich nicht, aber als ich später mal wieder da war hatte er mir die Ergebnisse mal gezeigt. Konnte ich so wirklich nicht viel mit Anfangen, klar Score XY ist besser als beim alten System, aber was es unterm Strich bedeutet ist halt schwer für einen Noob abzulesen. Er hat mir dann nur die offiziellen (damals Intel) und seine Ergebnisse gezeigt. Das war aber noch, bevor die o.g. "Anpassungen" aufgedeckt wurden. Auf jeden Fall sagte er mir, dass die neuen Systeme nicht die Leistung gebracht haben, die sie bringen sollten, das was an Leistung rüber kam passte mit dem Benchmark überein, aber eben nicht mit den Werten nach denen das System gekauft wurde. Ein Jahr später wusste er weshalb.. So etwas findest du nicht mit den Spielzeug Benches raus. Heise hat auch immer SPEC benutzt, ebenfalls selbst kompiliert, teilweise auch mit anderen Ergebnissen als (überwiegend Intel) präsentiert hat.
Ergänzung ()
Piak schrieb:
Nur wozu 3000€? Es ist ein Benchmark...wer braucht explizit das
ich nicht, aber wenn du einen Serverpark für einige (einige mehr) 10.000€ im Betrieb hast und den erneuerst, macht es schon Sinn die Komponenten vorab vernünftig zu testen. SPEC ist nichts für uns Kiddis.
Die ct hatte um das Jahr 2000 immer in den CPU-Test auch SPEC-CPU-Benchmarks.
Otto-Normal-Verbraucher wird nicht 3000€ ausgeben, um seine neue CPU zu testen.