Windows Server 2016 - SSD womöglich Defekt?

PUNK2018

Rear Admiral
Registriert
Apr. 2005
Beiträge
5.454
Hallo in die Runde,

folgendes Fehlerbild:

Fast wahrlos ist mein Windows Server 2016 und seine entsprechenden VMs nicht mehr zu erreichen. Erst ein Aus+Einschalten am Server selber hilft.

Die einzigen Hinweise die ich aktuell bekomme sind Einträge in der Ereignisanzeige:
Screenshot_20190116-084618_Microsoft Remote Desktop.jpg
sowie:
Screenshot_20190116-084631_Microsoft Remote Desktop.jpg

Es handelt sich vermutlich um die SystemSSD, eine Samsung 840 Pro, schon etwas in die Jahre gekommen, aus meinem Hauptsystem, aber noch immer fit:
Screenshot_20190116-084657_Microsoft Remote Desktop.jpg

Zusätzlich noch die andere SSD:

Screenshot_20190116-084715_Microsoft Remote Desktop.jpgScreenshot_20190116-084721_Microsoft Remote Desktop.jpg

Sieht also soweit gut aus...

Aktuell habe ich schon einmal die Datenkabel getauscht, keine Besserung.


Das System sieht wie folgt aus:

Ryzen 7 1700
2x8GB G.Skill Aegis DDR-3000
MSI B350M Mortar
Sapphire Radeon R5 230
Samsung 840 Pro 256GB
Crucial BX300 480GB
2x Seagate Enterprise NAS HDD 6TB (ST6000VN0001)
Straightpower 10-cm 600W


Mein nächster Anhaltspunkt ist folgender:

https://answers.microsoft.com/de-de...-windows/6c0d6af7-2364-43f6-9c60-67b58e39579f

bzw. was auch hier im Forum aufgegriffen worden ist:

https://www.computerbase.de/forum/t...et-device-raidport0-wurde-ausgegeben.1409580/

https://solip.de/windows/ein-zuruecksetzen-auf-geraet-deviceraidport0-wurde-ausgegeben


Ich würde hier aber noch ein wenig Parallel nach Tipps bzw. Hinweisen suchen wollen.


Grüße,

PUNK2018
 
Energieeinstellungen der Netzwerkkarte schon geprüft?

BTW: Ist die 840 Pro dein Datenträger 1?

VG
 
Zuletzt bearbeitet:
Beide Netzwerkkarten gehen nicht in den Standby oder ähnliches.

Datenträger 1 müsste die Crucial sein, die ist "neu"
 
Bitte mal verifizieren mit diskmgmt.msc
Ansonsten könntest die SSDs mit den Herstellertools auch mal durchchecken. Treiber und Typ der Netzwerkkarte? Eingestelltes Energieprofil?

VG
 
PUNK2018 schrieb:
Aktuell habe ich schon einmal die Datenkabel getauscht, keine Besserung.
Was mich nicht wundert, denn bei beiden ist der Rohwert des Attributews C7 welche Kommunikationsfehler mit dem Host Controller anzeigt, nämlich noch 0.
PUNK2018 schrieb:
Datenträger 1 müsste die Crucial sein, die ist "neu"
Wieso sollte dies bedeuten das hängt davon ab wie die SATA Ports vom BIOS durchnummeriert werden. Es gibt ja auch noch 2 HDDs im Rechner. Poste mal die Screenshots von CrystalDiskInfo für die beiden, ziehe aber bitte das Fenster soweit auf, dass alle Attribute und auch die Rohwerte vollständig sichtbar sind, also keine Scrollbalken mehr erscheinen. Bitte mache den Screenshot aus Windows und nicht mit einer Kamera vom Bildschirm und nur den Screen von CrystalDiskInfo, mit Alt+Druck erzeugt Windows einen Screenshot des aktiven Fensters in der Zwischenablage oder probiere mal die Tastenkombination: 'Windows Taste + Shift + S'.
_soella schrieb:
Bitte mal verifizieren mit diskmgmt.msc
Das würde ich auch vorschlagen, denn sonst bleibt es ein Ratespiel.
 
Die Crucial ist Datenträger 1, Datenträgerverwaltung bestätigt es ;-)

Onboard NIC: Realtek RTL8111H Treiber: Windows Server 2016 Std.
PCIe1x NIC: Realtek RTL8168, ebenso Windows Server Std. Treiber

Sprich: 9.1.404.2015

Energieprofil für Windows? Ausbalanciert, dort nur die Ausschaltzeit der Festplatten eingestellt. Die Empfehlung der von mir geposteten Links habe ich nun (16:10) auch übernommen.



@Holt: Jow, war eher ein Schuss ins blaue bezüglich der Kabel

Die Screenshots von vorhin waren über die Remotdesktopapp von "unterwegs" Daher etwas "unschöner".

Anbei die beiden Screenshots der beiden Datengräber:

1.png2.png
 
Was mir auffällt sind bei beiden Platten extrem viele Ausschaltungsabbrüche, was bei Seagate Platte normalerweise unerwartete Spannungsabfälle sind bei denen die Köpfe nicht sowieso schon geparkt waren. Wenn Du da nicht einen Ausschalter eingebaut und sie somit selbst provoziert hast, dann würde ich auf ein Problem der Spannungsversorgung tippen und auch die BX300 hat 15 (Rohwert vom Attribut AE) bei gerade mal 31 Einschaltvorgängen. Andererseits hat die 840 Pro "nur" 337 (POR Wiederherstellungen) bei 2792 Einschaltungen. Die dürfte aber auch aus einem vorherigen Rechner übernommen worden sein.

Beobachte mal wie sich die Werte entwickeln und außerdem hatten die beiden HDDs mal massive Probleme mit Befehlszeitüberschreitungen. Die könnte von Vibrationen kommen, wie einem Bass in der Nähe oder von Problemen mit SATA Datenkabeln anderer Platte, denn sie selbst hatten solche Probleme nie.
 
Die Ausschaltungsabbrüche sind wohl auf den Hardreset zurückzuführen den ich dann immer machen musste.
Richtig, die 840 Pro wird die aus dem Alten PC übernommen haben.
Bezüglich der Befehlszeitüberschreitungen: Beide Werte sind doch gleich?


PS: Seit der Anpassung des AHCI Link Power Management, keine Probleme mehr aufgetreten, ich beobachte weiter.
 
Die Rohwerte sind die Zählerstände, die Aktuellen Werte eine Interpretation des Controllers aus dem Rohwert und ggf. Faktoren wie z.B: der Zeit und geht vom einem bestimmten Ausgangswert (meist 100 wie hier, 200 oder 250) nach unten, je schlechter die Bewertung ausfälle. Der schlechteste Wert ist der geringste Wert den der Aktuelle Wert jemals hatte. Ausnahmen bestätigen die Regel, wie z.B. bei den Attributen F0, F1 und F2 aber auch bei C2, wo der Aktuelle Wert die Temperatur direkt anzeigt, während bei Attribut Be die Formel 100 - Temperatur angewendet wird um den Regeln zu entsprechen. Weder der Aktuelle noch der Schlechteste Wert sollte den Grenzwert erreichen oder gar unterschreiten.

Im Fall der Befehlszeitüberschreitungen (BC) enthält der Rohwert dreimal 0x07A1, was auch immer die drei DWORD bedeuten, der aktuelle Wert ist schon wieder 100, der Schlechteste Wert aber 1 und daher dürfte es mal ein Problem gegeben haben was zu den Befehlszeitüberschreitungen geführt hat, aber jetzt alles in Ordnung sein.
PUNK2018 schrieb:
Seit der Anpassung des AHCI Link Power Management, keine Probleme mehr aufgetreten, ich beobachte weiter.
Das wundert mich nun aber ein wenig, denn eigentlich war mir nur von den Crucial SSD mit Marvell Controllern von Problemen mit den Energiespareinstellungen wie eben LPM bekannt, dies zieht sich seit der C300 durch die Changelogs der FW Updates und bei C300 gab es zwei deswegen, ohne dass das Problem wirklich vollständig gelöst werden konnte. Die BX300 hat aber einen "Silicon Motion® SM2258 with Micron® Custom Firmware" und von anderen SSDs mit SMI Controllern ist dies eigentlich nicht bekannt. Es muss wohl an der Crucial FW liegen, wenn auch die mit SMI Controllern betroffen sind.
 
Ich werd mal nach FW Updates für die BX300 schauen, Ereignisanzeige ist bis jetzt Frei.

Okay, ich überlege ob ich irgendwo mal nen Hänger oder ähnliches hatte was bei den Festplatten zu soetwas geführt haben könnte.

Abgesehen von diesen Problemen das der Server erst nach einem Reboot wieder reagiert läuft es ansonnsten gut.
 
Zurück
Oben