Überlegungen zur Elektromigration/Stromdichte und CPU Alterung

@oldmanhunting
Die LLC soll doch nur für eine Egalisierung des vdroops sorgen, gerade auf Kosten eines höher ausfallenden Overshoots beim Lastwechsel...
Somit ist die LLC ja diesbezüglich eher schlecht.

Grüße
Zero
 
@ZeroZerp
Ich verstehe nicht, was Du da meinst.
Schalte ich LLC aus, dann habe ich keinen VDroop, was schlecht ist weil die Spannungsspitzen frei durchkommen. Als Beispiel: Stelle ich ohne LLC eine VCore von 1,3V im Bios ein, dann habe ich unter Last etwas mehr als 1,3V an der CPU anstehen.
Mit LLC an (bei mir Stufe 4), Habe ich im idle 1,3V an der CPU und unter Last sind es dann meinetwegen 1,26V.

Der @ralle_h aus dem Luxx hat das einmal ausführlich abgehandelt aber im Augenblick habe ich nicht die Zeit das zu suchen.
 
oldmanhunting schrieb:
Stelle ich ohne LLC eine VCore von 1,3V im Bios ein, dann habe ich unter Last etwas mehr als 1,3V an der CPU anstehen.

Nein mit LLC auf Aus/niedrigster Stufe liegen bei 1.3v im BIOS beispielsweise 1.2v unter Last an. Bei höher LLC steigt die Spannung unter Last, aber es kommt eben auch zu den entsprechenden Overshoots.

Ob bei LLC die höchste oder die niedrigste Zahl aus ist ist herstellerabhängig.

Btw. Auto /= aus
 
Hier einmal der Beitrag vom @ralle_h aus dem Luxx. Punkt 1.6 erklärt die LLC.
Ich frage mich gerade, was Asus LLC Auto bedeutet. Ohne jetzt viel zu suchen ist das maximaler Vdroop?
 
Ich kenn den Post von Ralle, aber wenn ich dich nicht vollkommen falsch verstehe dann unterstützt der nicht deinen Beitrag.
 
Ja, ich bin ja auch kein LLC Experte und bringe da wohl noch einiges durcheinander.
Wäre ja schon einmal hilfreich zu wissen, was laut Intel und den Mainboard Herstellern LLC Auto bedeutet. Ist das dann max. VDroop oder was ist das?
 
Nein im Normalfall nicht.

Ich hab Grad keine Zeit des genauer auszuprobieren, aber wenn ich mich richtig erinnere ist Auto meist sogar abhängig vom eingestellten Takt und der verbauten CPU etc..
Also von Auto LLC ist die Finger zu lassen

"Maximaler" vdrop ist die niedrigste LLC Stufe und sollte dem von Intel vorgesehenen LoadLine entsprechen. Allerdings gibt es glaube ich keine offiziellen öffentlichen Dokumente wie diese Auszusehen hat.
 
Die LLC erklärung ist auch fadenscheinig, generell sind ohmsche gesetzte (von ralle_h benutzt und auch hier im thread) bei halbleitern _völlig_ fehl am platze (wie @Harvesthor schon angemerkt hab)

sinn einer LLC ist ein geregelter/ verstärkter strom und nicht spannung, dies hat indirekt natürlich auch damit zu tun
 
ZeroZerp schrieb:
Sonst wüde es dieser schwer fallen, bei 1,4 Volt trotzdem nur 15 Watt Package Power zu ziehen...
Wobei das sehr viel ist, davon kann man inzwischen 2 Desktop Rechner mit iGPU im Leerlauf betreiben!
Mickey Mouse schrieb:
auf jeden Fall bekommt man eine CPU relativ schnell kaputt, wenn man es drauf anlegt...
Klar, bei maximal 1.35V und 27 Watt TDP 1.8V und viel OC. Andere elektrische Geräte würden viel schneller bei solch prozentualen Veränderungen den Dienst dauerhaft quittieren!
CPUs sind Recht robust und mit das letzte was im PC ausfällt...
 
So wie es aussieht (geht auch mit der Blackschen Gleichung konform) nimmt wohl die Temperatur beim Overclocking doch eine gehörige Rolle ein, wenn es um die Zuverlässigkeit/Langlebigkeit der Schaltkreise geht.

Elektromigration tritt wohl vornehmlich bei gleichbleibender Stromrichtung auf.
Geht also eher auf die Versorgungsleitungen als auf die Transistoren, bei denen aber wiederum die Thermische Migration eine tragende Rolle spielt:

Wird die Stromrichtung über einen längeren Zeitraum konstant gehalten, entstehen dabei Hohlräume und Materialanhäufungen in der Leiterbahn.

Damit sind analoge Schaltungen und die Stromversorgungsleitungen bei digitalen Schaltungen besonders elektromigrationsgefährdet.

Bei einer wechselnden Stromrichtung, wie bei digitalen Schaltungen mit ihren alternierenden kapazitiven Auf- und Entladungen von Leiterbahnen, tritt dieser Prozess auf Grund einer gewissen Kompensation nicht mit der gleichen Brisanz auf.

Leiterbahnausfälle sind aber auch hier möglich, wobei die thermische Migration eine wesentliche Rolle spielt.

Quelle:
https://www.ifte.de/mitarbeiter/lienig/fm_part1.pdf
 
ZeroZerp schrieb:
Elektromigration tritt wohl vornehmlich bei gleichbleibender Stromrichtung auf. Geht also eher auf die Versorgungsleitungen [...]
Ja genau. In digitalen Schaltkreisen verwendet man sogenannte DECAPS (decoupling capacitors) direkt neben der sequential logic / combinational logic um diese Stromspitze abzufangen. Das muss auch so sein, weil sonst die Versorgungsspannung lokal in den Keller geht. Heißt bei einer steigenden / fallenden Taktflanke "klaut" man sich den Strom aus den DECAPS und lädt sie dann wieder auf. Als Resultat davon ist der Strom "quasi-konstant" den digitale Schaltkreise fressen bzw. der über die Versorgungsleitung läuft. Aber um Elektromigration braucht man sich eigentlich keine Gedanken machen, es gibt Programme die "electromigration-aware" DECAPS platzieren und die Versorgungsspannungsleitungen dimensionieren, wir benutzen z.B. Cadence Voltus.

ZeroZerp schrieb:
Geht also eher auf die Versorgungsleitungen als auf die Transistoren, bei denen aber wiederum die Thermische Migration eine tragende Rolle spielt:
Es gibt wesentlich dominantere Degradationseffekte als Migration (Transistor als auch Versorgungsspannungsleitung) :-)
 
@M.tze
Auf welche mittlere Laufleistung legt Ihr im allgemeinen Eure Schaltkreise aus?
"Früher" hat man ja im allgemeinen gesagt, dass die Dinger 10 Jahre halten sollen.
Denkst Du, dass das immernoch so ist?

Grüße
Zero
 
Das kommt drauf an, was der Kunde will. Häufig arbeiten wir mit Automotiv-Kunden zusammen, die verlangen häufig 1 FIT.

Das mit mit Lebensdauer ist immer ein bisschen tricky, wegen der Definition. Die meisten Degradationseffekte (auch Elektromigration) bewirken, dass die Transistoren weniger leitfähig werden. Dadurch werden die Kapazitäten langsamer umgeladen - die Logikgatter werden also langsamer. Geschieht das im kritischen Pfad der Schaltung sinkt die maximale sichere Betriebsfrequenz. Dieser Effekt ist prinzipiell erstmal unabhängig von Temperatur/Strombedarf, aber das Verlangsamen der Logikgatter wird dadurch (drastisch) beschleunigt. Es kann z.B. durchaus sein dass ein Coffee-Lake i7 8086K in 10 Jahren noch funktioniert, aber nicht mehr mit 5 GHz sondern mit 4,5 GHz. Weil der Chip jetzt nicht mehr mit spezifizierten 5 GHz läuft gilt er als defekt. Hätte man ein und den selben Chip von Anfang an mit 4,5 GHz verkauft wäre alles gut.
Das Problem ist auch, dass man als Designer da nicht viel gegen machen kann, das hängt von der Technologie ab. Als Designer kann man nur darauf achten, dass man genug Sicherheitsmargin einplant, die das Verlangsamen kompensiert, wenn man extreme Lebenserwartungen hat, also einen hohen WNS (Setup Worst-Negative-Slack) in der Schaltung einplanen für eine gegeben Arbeitsfrequenz (das ist das gleiche wie runter Takten). Und natürlich Fehler vermeiden, z.B. Versorgungsleitungen richtig dimensionieren, die vorgeschriebene Transistiontime unterbieten und die korrekte Technologie auswählen (Fabs bieten für verschiedene Lebensdaueranforderungen verschiedene Libraries an).

Lebendauer ist ein kompliziertes Thema. :D
 
  • Gefällt mir
Reaktionen: Sweepi und .Sentinel.
Mal eine daran anschließende Frage: Wie gehen Prozessoren mit toten Transistoren um? Es geben schließlich permanent Transistoren den Löffel ab bzw. waren von Anfang an nicht funktionsfähig. Wie beeinträchtigt das die Funktionsweise, Genauigkeit und Datenintegrität?
 
Dazu ein kleines Vorwort: Ich mache kein 16 nm Prozess, sondern deutlich gröber. Das ist (sehr, sehr) viel billiger :-)

Funktioniert ein einziger Transistor nicht, dann funktioniert der gesamte Chip nicht (das gilt auch für Intel und Co). Man geht davon aus, dass jeder Transistor zu 100% funktioniert. Tote Transistoren, die von Anfang an nicht gehen und dann zu "stuck zeros" oder "stuck ones" in Digitalschaltungen führen werden durch Tests aufgedeckt. Durch diese Tests kann ein Chip als defekt erkannt werden beim Wafertest. Diese Test kann man in "ATPG Test" und "Funktional-Tests" unterscheiden. ATPG Testpattern werden automatisch generiert (bei uns mit Cadence Encounter Test) und Funktional-Test werden per Hand generiert.

Was man theoretisch machen kann ist Redundanz einbauen: Also quasi zwei mal den gleichen Funktions-Block einbauen. Funktioniert Nummer 1 nicht (weil ein einziger Transistor tot ist) , dann schaltet man auf Nummer 2 um. Problem: Das kostet Geld, und zwar richtig krass. Darum tun wir das nicht. Wenn der Chip beim Test durchfällt, geht der in die Mülltonne und Ende.
Was AMD / Intel und Nvidia machen ist, dann diesen Block zu deaktivieren (eFuse oder Laser-Cut) um den Chip dann als GTX 1060 anstatt GTX 1080 zu verkaufen.

Dass Transistoren während des Betriebs völlig ausfallen ist möglich, aber extremst unwahrscheinlich. Sie werden halt langsamer und irgendwann kann die Schaltung ihre Nennfrequenz nicht mehr halten. Aber völlig ausfallen passiert eigentlich nicht. Wenn doch dann funktioniert der Chip nicht mehr bzw. der Funktionsblock arbeitet nicht mehr richtig.
 
Ah interessant, dann war ich wohl fehlinformiert. Ich dachte, dass es bei einer Anzahl von ein paar Milliarden Transistoren nicht praktikabel oder möglich sei, absolut fehlerfreie Chips zu fertigen.
 
Müs Lee schrieb:
Ah interessant, dann war ich wohl fehlinformiert. Ich dachte, dass es bei einer Anzahl von ein paar Milliarden Transistoren nicht praktikabel oder möglich sei, absolut fehlerfreie Chips zu fertigen.
Eben dies ist ja die ultimative Herausforderung, Belohnung aber auch zeitgleich die Krux am Chipdesign!

ZeroZerp schrieb:
Wenn sich hier jemand gut mit Halbleitern/CPUs auskennt, wäre ich sehr dankbar, wenn er sich zu meinen Überlegungen äußern könnte.
Bin auch hin und wieder damit unterwegs, deswegen ein bisschen Lektüre …

Lektüre:
heise.de • Wie bestimmte "magische" Muster Prozessoren gezielt langsamer werden lassen können – Bösartige Software kann Prozessoren schneller altern lassen
Wikipedia.de • Deutsche Wikipedia – Elektromigration → Praktische Bedeutung
Golem.de • Geplante Obsoleszenz: Diese Software lässt Computer rasend schnell altern
elektroniknet.de • Elektromigration – Der Feind auf dem Chip
ht4u.de • Elektromigration: Was ist das? – Risiken des Übertaktens von CPUs
ifte.de • Technische Universität Dresden – Fakultät für Elektrotechnik und Informationstechnik
Artikelserie: Elektromigration – Eine neue Herausforderung beim Entwurf elektronischer Baugruppen

In diesem Sinne

Smartcom

Troll-Tip: Übertakten ist nicht nur das, was nach Verkauf beim Kunden passiert …
 
  • Gefällt mir
Reaktionen: .Sentinel.
Apropos Tests... Ich hatte die Möglichkeit in den Test-Reinraum zu kommen, als Designer. Das ist selten. :D
Insgesamt zwar recht unspektakulär, aber aber ich habe unsere Test-Ingenieurin gefragt ob ich Fotos machen darf. :D

So sieht ein Wafer-Tester aus, dort liegt der Wafer und jeder Chip auf dem Wafer wird angefahren um ihn auf Funktionsfähigkeit zu prüfen.. Relativ unspektakulär. Aber ich dachte ich teil das mal mit euch, weil die Frage aufkam (wie gesagt, ist kein höchst-moderner 16 nm Prozess, aber immerhin).
 

Anhänge

  • 20180802_140948.jpg
    20180802_140948.jpg
    1,7 MB · Aufrufe: 487
  • 20180802_140958.jpg
    20180802_140958.jpg
    1,2 MB · Aufrufe: 528
  • 20180802_141132.jpg
    20180802_141132.jpg
    1,3 MB · Aufrufe: 483
  • Gefällt mir
Reaktionen: Sweepi, Müs Lee, .Sentinel. und eine weitere Person
Danke dafür, sehr aufschlußreich! ♥

Was genau wird dabei überprüft? Der Wafer an sich, oder der jeweilige Die?
Habe ich gerade Verständnisrobleme, oder … ?!


In diesem Sinne

Smartcom
 
Zurück
Oben