Root-Server Kernel Panic / ZFS Deadlock

CoMo

Captain
Registriert
Dez. 2015
Beiträge
3.674
Hallo,

ich betreue einen Root-Server bei Seedhost.

Darauf läuft Proxmox, eine OPNSense VM, die den Traffic per DNAT bekommt und ein LXC-Container. Die OPNSense läuft auf einem ZVOL mit XFS.

Das ganze System läuft auf einem RAIDz1 aus 4 drehenden Platten.

Seit ein paar Tagen schmiert die Kiste in unregelmäßigen Abständen ab. Mal nach ein paar Minuten, mal nach ein paar Tagenn. Das hier konnte ich auf der IPMI-Konsole sehen

chrome_wxFP42MhvA.png


Scheinbar rennt das ZFS hier beim Schreiben auf ein ZVOL in einen Timeout? Danach folgt wohl ein Kernel Panic.

SMART-Werte sind einwandfrei; der ZFS Pool zeigt keine Fehler.

Ich habe die Kiste ins angebotene Rescue System GRML gebootet und mit memtester 29GB der freien 30GB durchgetestet. Keine Fehler.

System Health auf der IPMI Konsole zeigt ebenfalls keine Auffälligkeiten.

Ticket bei Seedhost ist offen, aber die sträuben sich sehr, irgendwas an der Hardware zu machen. Ich habe darum gebeten, die Verkabelung und den Status des Storage Controllers zu prüfen, bisher keine Antwort.

Hat jemand eine Idee, was ich hier eigenmächtig noch prüfen könnte?
 
JumpingCat schrieb:
Was ist das Ergebnis vom Scrub?

Code:
  pool: rpool
 state: ONLINE
  scan: scrub repaired 0B in 04:22:57 with 0 errors on Sun May 11 04:46:58 2025
[...]
errors: No known data errors

Der Scrub läuft automatisch, darum kümmert sich Proxmox.

JumpingCat schrieb:
Welche ZFS Version läuft?

Code:
version:        2.2.7-pve2
srcversion:     5048CA0AD18BE2D2F9020C5
vermagic:       6.8.12-11-pve SMP preempt mod_unload modversions

Was Proxmox halt mitbringt.

JumpingCat schrieb:
Der Controller läuft im IT Mode bzw was für ein Controller hast du?

IT Mode? Keine Ahnung. lspci -nn | grep SATA zeigt mir:


Code:
00:11.4 SATA controller [0106]: Intel Corporation C610/X99 series chipset sSATA Controller [AHCI mode] [8086:8d62] (rev 05)
00:1f.2 SATA controller [0106]: Intel Corporation C610/X99 series chipset 6-Port SATA Controller [AHCI mode] [8086:8d02] (rev 05)
 
  • Gefällt mir
Reaktionen: madmax2010 und netzgestaltung
Ich habe einen Scrub manuell gestartet und er lief durch.

Code:
root@<HOSTNAME>:~# zpool status
  pool: rpool
 state: ONLINE
  scan: scrub repaired 0B in 04:40:31 with 0 errors on Wed Jun 11 07:49:46 2025
config:

        NAME                                            STATE     READ WRITE CKSUM
        rpool                                           ONLINE       0     0     0
          raidz1-0                                      ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0

errors: No known data errors
 
  • Gefällt mir
Reaktionen: netzgestaltung
Kannst du was zu der restlichen Hardware sagen?
Zufällig AMD CPU und Asrock Rack Mainboard?

Bei Hetzner werden z.B. derzeit alle Server mit einem Asrock Rack Mainboard gewartet und ein neue Revision des Boards eingebaut.
Symptome: Unregelmäßige Abstürze und Kernel Panics.

Mainboard findest du heraus mit:
Code:
sudo dmidecode -t 2
 
  • Gefällt mir
Reaktionen: netzgestaltung und JumpingCat
Das Board ist ein Supermicro X10SRi-F Version: 1.01B

Der Prozessor ist ein Intel(R) Xeon(R) CPU E5-1650 v4

Also beides Nein.

Der RAM ist SK Hynix HMA41GR7AFR8N-TF DDR4 RDIMM ECC.
 
Die Fehlermeldung steht doch schon da: device hung.

Entweder ist da viel zu viel Last auf den Datenträger oder es ist ein Bug. Die Ursache: Consumer HDD ohne TLER konnte durch nennen der Datenträger ausgeschlossen werden.
 
JumpingCat schrieb:
Die Fehlermeldung steht doch schon da: device hung.
Ein virtuelles oder ein physikalisches?
Und hatte das überhaupt eine Chance nicht zu hängen?
JumpingCat schrieb:
Entweder ist da viel zu viel Last auf den Datenträger ....
Neue Geschichten aus dem Paulanergarten?
 
Wurde vielleicht mal versucht einfach nen älteren Kernel zu verwenden?
 
Ja, ich habe testweise nen älteren Kernel gebootet. Keine Besserung. Freeze nach ein paar Stunden.

Das System lief jetzt etwa 5 Tage lang ohne Probleme. Heute früh gegen 6 ist es wieder stehengeblieben.
 
Echt ätzend das Problem.

Und, ist ein Schuss ins Blaue, aber was hast du beim Cache Modus der VM's eingestellt? Ich erinnere mich dunkel, dass es vor Jahren etwas ähnliches gab wo das Setting auf "No Cache" geholfen haben soll.

Da ich aktuell kein ZFS System mehr habe bin ich da nicht im Bilde, ist das ZFS aktuell (-> zfs upgrade)?
 
CoMo schrieb:
Ja, ich habe testweise nen älteren Kernel gebootet. Keine Besserung. Freeze nach ein paar Stunden.

Das System lief jetzt etwa 5 Tage lang ohne Probleme. Heute früh gegen 6 ist es wieder stehengeblieben.
Und keinen Crashdump vorher eingerichtet?
 
Ja, das habe ich versucht. Die einzige VM ist die OPNsense und die steht jetzt auf Default (No cache).

Das ZFS ist aktuell, so alt ist der Server auch noch nicht.

Code:
This system is currently running ZFS filesystem version 5.
All filesystems are formatted with the current version.
 
  • Gefällt mir
Reaktionen: GrillSgt
Hm.. frage mich zunehmend ob - allen Tests zum Trotz - es hier nicht einen Hardwarefehler gibt. Die Art und Weise, dass es anfänglich ordentlich gelaufen ist, jetzt hier und da ein paar Tage gut geht und dann vor die Wand läuft, alles so Dinge die in diese Richtung deuten.
Ja, memtest hat keine Fehler gezeigt, aber manche Fehler treten auch erst nach Tagen oder unter bestimmten Szenarien auf. Auch könnten ja andere Komponenten fehlerbehaftet sein. Problematisch ist natürlich, dass es nicht dein System ist und der Anbieter sich doof stellt bzw. nicht bereit ist zu helfen.

P.S.: Mir ist Seedhost irgendwie suspekt. Nicht mal ein Impressum habe ich auf die Schnelle gefunden.
 
GrillSgt schrieb:
Mir ist Seedhost irgendwie suspekt. Nicht mal ein Impressum habe ich auf die Schnelle gefunden
Sitz in Polen, deswegen auch kein Impressum, die Pflicht gilt da nicht soweit ich weis.
Wirkt auf mich jetzt allerdings auch nicht wie der Premium Laden, wundert also nicht das die sich sträuben was zu tun. Kann auch einfach sein das der Onboard SATA Controller nicht so recht mit der Konstellation mag, wäre auch nicht das erste mal.

WHY ARE YOU STILL WAITING? YOU RISK NOTHING AND WE BELIEVE YOU WILL FALL IN LOVE WITH YOUR ACCOUNTS,
WE BEAT OUR COMPETITORS FOR SURE!
Ich mein allein die Werbung auf der Seite wo die Server gelistet sind...

Wie dem auch sei, du hast ziemlich viel probiert, das ganze Neu aufziehen wird ja eher keine Option sein.
 
Mojo1987 schrieb:
Stimmt wohl, aber dieser Seite nach aber doch nach einer gewissen Pflicht zur Veröffentlichung gewisser Infos. Die Infos sind IMHO auch nicht zu finden. Für so etwas wie einen Anbieter eines Root Servers wäre mir das alles zu fragwürdig.
 
Die Info gibt's ja durchaus, unter anderem in deren ToS deswegen weiß ich ja das sie den Sitz in Polen haben. Es muss nur halt kein dedizierten Impressum geben :)
 
Zurück
Oben