Einen interessanten aber wenig praxisrelevanten Effekt zeigt Coremark in der CPU-Oberliga: So rasen die Recheneinheiten der Sandy-Bridge-Prozessoren wie entfesselt los und düpieren damit sogar die Sechskerner - die beispielsweise im Cinebench dank der höheren Kernzahl einen komfortablem Vorsprung halten. Der Grund dafür dürfte im großen MicroOP-Cache liegen, der wohl für die wesentlichen Teile des Coremark-Codes ausreicht. Das trifft auf sehr viele andere Programme freilich nicht zu, die übrigen Benchmarks zeigen ein ausgewogeneres Bild.
Theorie versus Praxis
Dieses Beispiel zeigt sehr deutlich, mit welch ausgefeilten Tricks die x86-Prozessoren versuchen, ihre Rechenwerke optimal auszulasten und andererseits, dass das in der Praxis nicht immer klappt. Daher sind sogenannte Zyklus-zu-Zyklus-Vergleiche, die viele Diskussionen in Foren sowie im Kollegenkreis bewegen, ebenso weltfremde Theorie wie der Versuch, Motoren unter Vernachlässigung von Einspritzpumpe, Turbolader und Kraftstoffsorte zu vergleichen.
Lediglich als Marketinginstrument und theoretische obere Schranke taugt die Angabe in Milliarden Floating-Point Operationen pro Sekunde (GFlops). Nahezu alle aktuellen x86-Kerne besitzen zwei 128 bit breite SSE-Einheiten. Diese erledigen pro Taktzyklus jeweils zwei Berechnungen in doppelter Genauigkeit (64 bit, Double Precision). Folglich käme ein 3-GHz-Prozessor bei perfekter Auslastung auf 12 GFlops pro Kern. Dabei spielt es weder eine Rolle ob er von AMD oder Intel noch aus welcher Generation er stammt.