NVMe-SSD bei Schreibvorgängen mit sprunghaften Anstiegen auf 100% Last

SSD kann auch einfach defekt sein. Das Verhalten ist dann im Prinzip beliebig seltsam und Windows tendiert bei solchen IO-Fehlern zu Verhalten dass manchmal nicht direkt auf IO schließen lässt.

Hatte mal eine 970 Evo, die seltsame Fehlermuster produziert hat (sporadisch Bluesceeen beim Booten, Hangs in Windows, Probleme beim Standby-Aufwachen).
 
DrChrisRespect schrieb:
Wo genau würde ich danach suchen? Finde es dann krass, dass es dann direkt zwei SSD betrifft, die beide noch bei 100%/99% TBW stehen und kaum ein Jahr alt sind. Formatierung werde ich aber bei Gelegenheit mal probieren.
Der TBW Wert ist irrelevant wenn du von ab Werk defekte Speicherzellen triggerst.

Für Linux hatte ich dir einen Auszug gegeben, den dir der Befehl dmesg liefert oder journalctl --dmesg . Es ist nicht verkehrt, das mal von USB-Stick oder Netzwerk zu booten um die Dateien testweise zu lesen, um zu schauen was da als Meldung bei rum kommt. Damit schließt du Windowstreiber als Quelle auch aus.

Bei Windows lade ich dich ein, ergebnisoffen durch die Meldungen in der „Ereignisanzeige“ (Event Viewer) zu gehen. “Windows Logs → System” oder „Windows → Hardware“, “Application → Microsoft → Windows → Stor…/Storage…” oder sowas – ich nutze Linux.

In der Ereignisanzeige kannst du dir rechts – das Symbol ist ein Trichter – einen Filter geben um die angezeigte Liste auf Kritisch/Fehler/Warnung einzugrenzen.
 
  • Gefällt mir
Reaktionen: DrChrisRespect
@Tsu Jo, das mit Linux passt. Dahin ging meine Frage auch eher, weil mit Linux habe ich außerhalb vom Steam Deck keinerlei Erfahrung. Im Event Viewer war ich ein Weilchen, aber in der Richtung habe ich gar nichts gesehen. Habe auch mal das Gerät gesucht, also mit Instanzpfad, und da taucht in mehreren Protokollen nichts auf. Unter Hardware ist auch kein einziger Eintrag.

Vielleicht habe ich aber auch an der falschen Stelle gesucht. Kann mich da aber erst wieder in den kommenden Tagen dran setzen. Schauen wir mal.^^ Danke auf jeden Fall!
 
@DrChrisRespect An deiner Stelle – und an der war ich selbst :) – würde ich die Platte entladen, die Partition löschen, dann dein Backup testen bzw. die Daten wieder am Stück drauf schreiben. Damit schließt du (2) als Quelle aus: Die schlechte Pflege der Datenstruktur durch die Firmware.

Erlebst du dabei wieder, dass die Zugriffszeit hoch springt, und hast Strom sowie Fett auf den Kontakten ausgeschlossen, dann würde ich nun den Reset (Screenshot oben) bzw. Timeout stark vermuten und suchen. Mach dann gleich einen Screenshot für den Garantieantrag.


Anekdote zur Unterhaltung am Sonntag: Ich entlade hier auch größere Videodateien am Stück auf NVMe SSDs mit um die 800–1600 MB/s. Bei zwei Kingston NV2 (die mir Kingston dann gegen eine größere NV3 eintauschte) hatte ich meinen Defekt nach nur wenigen Tagen getriggert.

Mit etwas Einblick in Firmware-Programmierung wusste ich, dass der defekte Block (bzw. Zelle im Einzelnen) bekloppterweise nochmals gelesen wurde (statt den ersten erfolgreichen Wert wiederzuverwenden) um ihn zu verlagern. Was dann auch scheiterte und 100+ mal wiederholt wurde. In der Software, die auch dieser Hersteller aus einem Beispiel des Controller-Herstellers 1:1 kopierte, waren keine Cutoff-Limits gesetzt – potentiell wäre das eine unendlich lange Geschichte geworden die das lesen der noch heilen Bereiche blockieren würde.

Beim ursprünglichen Schreiben der großen Datei(en) kam der Controller mit den Checks nicht nach und hat die einfach fallen gelassen. Oder von Anbeginn an wg. Performance nicht drin, weiß ich jetzt nicht mehr. (Wie so manch Router in einen dummen Switch-Modus bei zuviel Last wechselt.)
Aus Gründen des Energie-Sparens hat das (Consumer-)Laufwerk auch gar keine Patrol-Reads, proactive Cell-Refresh oder ähnliches implementiert, so dass es erst beim durch mich veranlassten Lesen zum kombinierten Neuversuch-für-User+Neuversuch-für-Wear-Levelling kam.
 
  • Gefällt mir
Reaktionen: DrChrisRespect
@Tsu Das klingt doch nach einem Plan! Komme leider nicht mehr heute an den PC, aber mal schauen, was die SSD dann sagt. Aber krass, was da so schiefgehen kann.
 
Wie wäre es mal mit einem Ressourcenmonitor Screenshot? Schön das du schreibst, das DIR da keine Auffälligkeiten ins Auge springen. Anderen vielleicht schon. Alles bis dahin, alles was bis jetzt passiert ist. War nur raten. Ein Schuss ins blaue!
 

Ähnliche Themen

Zurück
Oben