Root-Server Kernel Panic / ZFS Deadlock

CoMo · 11. Juni 2025

Hallo,

ich betreue einen Root-Server bei Seedhost.

Darauf läuft Proxmox, eine OPNSense VM, die den Traffic per DNAT bekommt und ein LXC-Container. Die OPNSense läuft auf einem ZVOL mit XFS.

Das ganze System läuft auf einem RAIDz1 aus 4 drehenden Platten.

Seit ein paar Tagen schmiert die Kiste in unregelmäßigen Abständen ab. Mal nach ein paar Minuten, mal nach ein paar Tagenn. Das hier konnte ich auf der IPMI-Konsole sehen

Scheinbar rennt das ZFS hier beim Schreiben auf ein ZVOL in einen Timeout? Danach folgt wohl ein Kernel Panic.

SMART-Werte sind einwandfrei; der ZFS Pool zeigt keine Fehler.

Ich habe die Kiste ins angebotene Rescue System GRML gebootet und mit memtester 29GB der freien 30GB durchgetestet. Keine Fehler.

System Health auf der IPMI Konsole zeigt ebenfalls keine Auffälligkeiten.

Ticket bei Seedhost ist offen, aber die sträuben sich sehr, irgendwas an der Hardware zu machen. Ich habe darum gebeten, die Verkabelung und den Status des Storage Controllers zu prüfen, bisher keine Antwort.

Hat jemand eine Idee, was ich hier eigenmächtig noch prüfen könnte?

JumpingCat · 11. Juni 2025

CoMo schrieb:
SMART-Werte sind einwandfrei; der ZFS Pool zeigt keine Fehler.

Was ist das Ergebnis vom Scrub?

Welche ZFS Version läuft?

Der Controller läuft im IT Mode bzw was für ein Controller hast du?

CoMo · 11. Juni 2025

JumpingCat schrieb:
Was ist das Ergebnis vom Scrub?

Code:

  pool: rpool
 state: ONLINE
  scan: scrub repaired 0B in 04:22:57 with 0 errors on Sun May 11 04:46:58 2025
[...]
errors: No known data errors

Der Scrub läuft automatisch, darum kümmert sich Proxmox.

JumpingCat schrieb:
Welche ZFS Version läuft?

Code:

version:        2.2.7-pve2
srcversion:     5048CA0AD18BE2D2F9020C5
vermagic:       6.8.12-11-pve SMP preempt mod_unload modversions

Was Proxmox halt mitbringt.

JumpingCat schrieb:
Der Controller läuft im IT Mode bzw was für ein Controller hast du?

IT Mode? Keine Ahnung. lspci -nn | grep SATA zeigt mir:

Code:

00:11.4 SATA controller [0106]: Intel Corporation C610/X99 series chipset sSATA Controller [AHCI mode] [8086:8d62] (rev 05)
00:1f.2 SATA controller [0106]: Intel Corporation C610/X99 series chipset 6-Port SATA Controller [AHCI mode] [8086:8d02] (rev 05)

CoMo · 11. Juni 2025

Ich habe einen Scrub manuell gestartet und er lief durch.

Code:

root@<HOSTNAME>:~# zpool status
  pool: rpool
 state: ONLINE
  scan: scrub repaired 0B in 04:40:31 with 0 errors on Wed Jun 11 07:49:46 2025
config:

        NAME                                            STATE     READ WRITE CKSUM
        rpool                                           ONLINE       0     0     0
          raidz1-0                                      ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0
            ata-TOSHIBA_MG07ACA12TE_<SN>-part3  ONLINE       0     0     0

errors: No known data errors

Sephe · 11. Juni 2025

Kannst du was zu der restlichen Hardware sagen?
Zufällig AMD CPU und Asrock Rack Mainboard?

Bei Hetzner werden z.B. derzeit alle Server mit einem Asrock Rack Mainboard gewartet und ein neue Revision des Boards eingebaut.
Symptome: Unregelmäßige Abstürze und Kernel Panics.

Mainboard findest du heraus mit:

Code:

sudo dmidecode -t 2

CoMo · 11. Juni 2025

Das Board ist ein Supermicro X10SRi-F Version: 1.01B

Der Prozessor ist ein Intel(R) Xeon(R) CPU E5-1650 v4

Also beides Nein.

Der RAM ist SK Hynix HMA41GR7AFR8N-TF DDR4 RDIMM ECC.

foofoobar · 11. Juni 2025

Früher konnte man auf der Console mit Shift-Page-up blättern, aber das ist wohl beim dem ganzen 3D-Kram irgendwo liegen geblieben.

Man kann bei einem task-hänger die Kiste crashen lassen und einen Dump schreiben:
https://chrisarges.net/posts/2014-10-31-getting-kernel-crashdumps-for-hung/

Aus dem crashdump kann man sicherlich die initialen Meldungen raus holen -> google.

JumpingCat · 11. Juni 2025

Die Fehlermeldung steht doch schon da: device hung.

Entweder ist da viel zu viel Last auf den Datenträger oder es ist ein Bug. Die Ursache: Consumer HDD ohne TLER konnte durch nennen der Datenträger ausgeschlossen werden.

foofoobar · 12. Juni 2025

JumpingCat schrieb:
Die Fehlermeldung steht doch schon da: device hung.

Ein virtuelles oder ein physikalisches?
Und hatte das überhaupt eine Chance nicht zu hängen?

JumpingCat schrieb:
Entweder ist da viel zu viel Last auf den Datenträger ....

Neue Geschichten aus dem Paulanergarten?

GrillSgt · 14. Juni 2025

Wurde vielleicht mal versucht einfach nen älteren Kernel zu verwenden?

CoMo · 18. Juni 2025

Ja, ich habe testweise nen älteren Kernel gebootet. Keine Besserung. Freeze nach ein paar Stunden.

Das System lief jetzt etwa 5 Tage lang ohne Probleme. Heute früh gegen 6 ist es wieder stehengeblieben.

GrillSgt · 19. Juni 2025

Echt ätzend das Problem.

Und, ist ein Schuss ins Blaue, aber was hast du beim Cache Modus der VM's eingestellt? Ich erinnere mich dunkel, dass es vor Jahren etwas ähnliches gab wo das Setting auf "No Cache" geholfen haben soll.

Da ich aktuell kein ZFS System mehr habe bin ich da nicht im Bilde, ist das ZFS aktuell (-> zfs upgrade)?

foofoobar · 19. Juni 2025

CoMo schrieb:
Ja, ich habe testweise nen älteren Kernel gebootet. Keine Besserung. Freeze nach ein paar Stunden.

Das System lief jetzt etwa 5 Tage lang ohne Probleme. Heute früh gegen 6 ist es wieder stehengeblieben.

Und keinen Crashdump vorher eingerichtet?

CoMo · 19. Juni 2025

Ja, das habe ich versucht. Die einzige VM ist die OPNsense und die steht jetzt auf Default (No cache).

Das ZFS ist aktuell, so alt ist der Server auch noch nicht.

Code:

This system is currently running ZFS filesystem version 5.
All filesystems are formatted with the current version.

andy_m4 · 19. Juni 2025

CoMo schrieb:
Das ZFS ist aktuell, so alt ist der Server auch noch nicht.

Versionsnummern in dem Sinne gibts beim ZFS-Pool-Format ja nicht mehr. Aber es gibt Features (bzw. feature flags).
Die kann man mit zpool upgrade -v anzeigen lassen (siehe zfs-upgrade(8)).
Aber ja. Bei Dir scheint da alles im grünen Bereich zu sein.

GrillSgt · 20. Juni 2025

Hm.. frage mich zunehmend ob - allen Tests zum Trotz - es hier nicht einen Hardwarefehler gibt. Die Art und Weise, dass es anfänglich ordentlich gelaufen ist, jetzt hier und da ein paar Tage gut geht und dann vor die Wand läuft, alles so Dinge die in diese Richtung deuten.
Ja, memtest hat keine Fehler gezeigt, aber manche Fehler treten auch erst nach Tagen oder unter bestimmten Szenarien auf. Auch könnten ja andere Komponenten fehlerbehaftet sein. Problematisch ist natürlich, dass es nicht dein System ist und der Anbieter sich doof stellt bzw. nicht bereit ist zu helfen.

P.S.: Mir ist Seedhost irgendwie suspekt. Nicht mal ein Impressum habe ich auf die Schnelle gefunden.

Mojo1987 · 21. Juni 2025

GrillSgt schrieb:
Mir ist Seedhost irgendwie suspekt. Nicht mal ein Impressum habe ich auf die Schnelle gefunden

Sitz in Polen, deswegen auch kein Impressum, die Pflicht gilt da nicht soweit ich weis.
Wirkt auf mich jetzt allerdings auch nicht wie der Premium Laden, wundert also nicht das die sich sträuben was zu tun. Kann auch einfach sein das der Onboard SATA Controller nicht so recht mit der Konstellation mag, wäre auch nicht das erste mal.

WHY ARE YOU STILL WAITING? YOU RISK NOTHING AND WE BELIEVE YOU WILL FALL IN LOVE WITH YOUR ACCOUNTS,
WE BEAT OUR COMPETITORS FOR SURE!

Ich mein allein die Werbung auf der Seite wo die Server gelistet sind...

Wie dem auch sei, du hast ziemlich viel probiert, das ganze Neu aufziehen wird ja eher keine Option sein.

GrillSgt · 21. Juni 2025

Mojo1987 schrieb:
soweit ich weis

Stimmt wohl, aber dieser Seite nach aber doch nach einer gewissen Pflicht zur Veröffentlichung gewisser Infos. Die Infos sind IMHO auch nicht zu finden. Für so etwas wie einen Anbieter eines Root Servers wäre mir das alles zu fragwürdig.

Mojo1987 · 21. Juni 2025

Die Info gibt's ja durchaus, unter anderem in deren ToS deswegen weiß ich ja das sie den Sitz in Polen haben. Es muss nur halt kein dedizierten Impressum geben

chitypo · 21. Juni 2025

Company Details

https://www.seedhost.eu/privacy-policy.php

Root-Server Kernel Panic / ZFS Deadlock

Commodore

Rear Admiral

Commodore

Commodore

Rear Admiral

Commodore

Rear Admiral

Rear Admiral

Rear Admiral

Lt. Junior Grade

Commodore

Lt. Junior Grade

Rear Admiral

Commodore

Admiral

Lt. Junior Grade

Fleet Admiral

Lt. Junior Grade

Fleet Admiral

Cadet 4th Year

Company Details​

Ähnliche Themen

Passend zum Thema

Company Details