CubeID
Lt. Commander
- Registriert
- Nov. 2004
- Beiträge
- 2.027
[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke!
]
1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):
Der TC läuft in unregelmäßigen Abständen von 1 - 7 Tagen (einmal waren es glaub 3 Woche) in einen Fehler, bei dem / nachdem er die SSD auf Read-only setzt. Folge sind Writefehler und die VMs können keine Daten mehr schreiben.
Leider komme ich dann nicht mehr auf die Web-GUI, über SSH und journalctl -f sieht man das er Probleme mit der SSD hat, I/O-Fehler etc... allerdings kann ich da nicht wirklich erkennen wo oder was die Ursache dafür ist.
Das Problem tritt mit beiden Lexar's als auch mit der Kioxia auf, alles PCIe 4.0 SSDs.
Aktuell läuft es mit der Samsung (PCIe 3.0) seit 18 Tagen.
Long story (logs) short: Die SSD wird in RO-Mode gesetzt, PVE hat entsprechend Probleme weil nicht mehr geschrieben werden kann.
3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
- BIOS: Update auf 1.26.0. 1.29.2 waren "nur" Sicherheitsupdates, bei 1.30.0 steht jetzt tatsächlich was mit Systemstabilität drin, ohne genau zu wissen was. 1.31.1 auf wieder "nur" Sicherheitsupdates.
Im BIOS kann man sonst nicht wirklich was einstellen....
- PVE-Updates auf latest stable non subscription
Zum Testen hatte ich anfangs mal W11 installiert. Das lief "stabil". Als ich da jedoch nach den Problemen mit PVE in die Log geschaut habe (Installation auf einer anderen SSD), waren dort auch ewig viele Fehler drin. Scheinbar kommt es kurzfristig zu Aussetzern, die SSD fängt sich irgendwie wieder und Windows läuft weiter.
Als ich es nochmal mit Windows nachstellen wollte, konnte ich das Verhalten (Fehler im Log) nicht mehr reproduzieren - eventuell hatte ich die Samsung SSD (PCIe 3.0) erwischt.
Ich hatte den Händler des (refurbed) TCs angeschrieben, seine Antwort: Klar, der Rechner kann auch nur PCIe 3.0!
Ich war bisher der Meinung, dass PCIe abwärtskompatibel ist?! In meinem PC läuft eine PCIe 4.0 SSD im 3.0 Slot seit ~2 Jahren, in einem anderen TC (ebenfalls PVE) läuft die Lexar NM790 seit ebenfalls ~ 2 Jahren sogar in einem PCIe 2.0 x1 Slot ohne Murren!
Nun, um es doch noch einmal mit einer PCIe 3.0 SSD zu probieren habe ich nach den Lexar's und der Kioxia jetzt die Samsung drin,
bisher schonmal 18 Tage ohne Absturz geschafft (was ich über Weihnachten auch mit nur der Lexar Play einmal hatte (21 Tage)).
Das Problem tritt auf, egal ob nur eine SSD im "normalen" oder nur im "WiFi" M.2 Slot verbaut ist, oder beide SSDs (eine über Adapter) drin sind.
Dachte erst, dass an dem "WiFi"-M.2 Slot bzw. den Adaptern liegt. Ich hatte allerdings Fehler sowohl mit nvme0n1 als auch mit nvme1n1 als beide SSDs verbaut waren.
Somit nun die Quizfrage:
Hat der Rechner eine Macke, oder liegt es doch daran dass ich PCIe 4.0 SSD(s) in 3.0 Slots betreiber!?!? 😵💫
Mir gehen da etwas die Ideen aus 😔
Habt ihr noch Idee?
Danke!
Ich würde gern wieder auf das Setup mit 2 SSDs wechseln (Lexar NM790 im M.2 Slot (M-Key), Lexar Play 2230 im "WiFi"-M.2-Slot mittels Adapter von A-/E-Key auf M-Key (funktioniert in meinem anderen TC problemlos)), da mit 1 + 4TB mehr Speicherplatz zur Verfügung steht und ich einen zweiten PVE wieder abschalten könnte.
1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
- System: Dell Optiplex 3000 Thin Client
- Prozessor (CPU): Intel N6005
- Arbeitsspeicher (RAM): 24GB (8 + 16)
- Mainboard: Dell, BIOS: 1.26.0
- Netzteil: org. Dell 19,5V / 65W
- Grafikkarte: Intel UHD
- SSD: Lexar Play 2230 1TB, Lexar NM790 4TB, Kioxia kbg50znv256g Samsung PM981A 1TB (MZVLB1T0HBLR-000L7)
- OS: Proxmox PVE 9.1.5
2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):
Der TC läuft in unregelmäßigen Abständen von 1 - 7 Tagen (einmal waren es glaub 3 Woche) in einen Fehler, bei dem / nachdem er die SSD auf Read-only setzt. Folge sind Writefehler und die VMs können keine Daten mehr schreiben.
Leider komme ich dann nicht mehr auf die Web-GUI, über SSH und journalctl -f sieht man das er Probleme mit der SSD hat, I/O-Fehler etc... allerdings kann ich da nicht wirklich erkennen wo oder was die Ursache dafür ist.
Das Problem tritt mit beiden Lexar's als auch mit der Kioxia auf, alles PCIe 4.0 SSDs.
Aktuell läuft es mit der Samsung (PCIe 3.0) seit 18 Tagen.
Code:
Dec 02 00:54:14 PVE pveproxy[1081]: worker 521565 started
Dec 02 00:54:14 PVE pveproxy[1081]: worker 521566 started
Dec 02 00:54:14 PVE pveproxy[521565]: unable to open log file '/var/log/pveproxy/access.log' - Read-only file system
Dec 02 00:54:14 PVE pveproxy[521566]: unable to open log file '/var/log/pveproxy/access.log' - Read-only file system
Dec 02 00:54:15 PVE kernel: nvme_log_error: 8 callbacks suppressed
Dec 02 00:54:15 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:15 PVE kernel: blk_print_req_error: 8 callbacks suppressed
Dec 02 00:54:15 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:16 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:16 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:16 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:16 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:16 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:16 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:17 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:17 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:17 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:17 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:17 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:17 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:17 PVE pvestatd[1044]: can't lock file '/var/log/pve/tasks/.active.lock' - can't open file - Read-only file system
Dec 02 00:54:17 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:17 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:18 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:18 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:18 PVE kernel: nvme0n1: I/O Cmd(0x1) @ LBA 246685824, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Dec 02 00:54:18 PVE kernel: I/O error, dev nvme0n1, sector 246685824 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Dec 02 00:54:18 PVE pvescheduler[521556]: jobs: cfs-lock 'file-jobs_cfg' error: got lock request timeout
Dec 02 00:54:19 PVE pveproxy[521564]: worker exit
Dec 02 00:54:19 PVE pveproxy[1081]: worker 521564 finished
Dec 02 00:54:19 PVE pveproxy[1081]: starting 1 worker(s)
Dec 02 00:54:19 PVE pveproxy[1081]: worker 521633 started
Dec 02 00:54:19 PVE pveproxy[521633]: unable to open log file '/var/log/pveproxy/access.log' - Read-only file system
Dec 02 00:54:19 PVE pveproxy[521565]: worker exit
Dec 02 00:54:19 PVE pveproxy[521566]: worker exit
Dec 02 00:54:19 PVE pveproxy[1081]: worker 521565 finished
Dec 02 00:54:19 PVE pveproxy[1081]: worker 521566 finished
Code:
ec 12 14:44:07 PVE systemd-journald[342]: Failed to rotate /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal: Read-only file system
Dec 12 14:44:07 PVE systemd-journald[342]: Failed to write entry to /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal (25 items, 659 bytes) despite vacuuming, ignoring: Read-only file system
Dec 12 14:44:07 PVE systemd-journald[342]: /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal: Read-only file system, rotating.
Dec 12 14:44:07 PVE systemd-journald[342]: Failed to rotate /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal: Read-only file system
Dec 12 14:44:07 PVE systemd-journald[342]: /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal: Read-only file system, rotating.
Dec 12 14:44:07 PVE systemd-journald[342]: Failed to rotate /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal: Read-only file system
Dec 12 14:44:09 PVE pvescheduler[1180088]: replication: can't lock file '/var/lib/pve-manager/pve-replication-state.lck' - can't open file - Read-only file system
Dec 12 14:44:09 PVE pvestatd[1042]: can't lock file '/var/log/pve/tasks/.active.lock' - can't open file - Read-only file system
Dec 12 14:44:11 PVE systemd-journald[342]: Failed to write entry to /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal (25 items, 659 bytes) despite vacuuming, ignoring: Read-only file system (Dropped 7 similar message(s))
Dec 12 14:44:12 PVE systemd-journald[342]: Failed to write entry to /var/log/journal/8a0322b4c4e044c6b913605ee505a621/system.journal (25 items, 659 bytes) despite vacuuming, ignoring: Read-only file system (Dropped 4 similar message(s))
Code:
Jan 02 20:25:25 PVE kernel: nvme1n1: I/O Cmd(0x1) @ LBA 220207104, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Jan 02 20:25:25 PVE kernel: I/O error, dev nvme1n1, sector 220207104 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Jan 02 20:25:25 PVE kernel: nvme1n1: I/O Cmd(0x1) @ LBA 220207104, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Jan 02 20:25:25 PVE kernel: I/O error, dev nvme1n1, sector 220207104 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Jan 02 20:25:26 PVE pvestatd[1056]: can't lock file '/var/log/pve/tasks/.active.lock' - can't open file - Read-only file system
Jan 02 20:25:28 PVE kernel: nvme_log_error: 8 callbacks suppressed
Jan 02 20:25:28 PVE kernel: nvme1n1: I/O Cmd(0x1) @ LBA 220207104, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Jan 02 20:25:28 PVE kernel: blk_print_req_error: 8 callbacks suppressed
Jan 02 20:25:28 PVE kernel: I/O error, dev nvme1n1, sector 220207104 op 0x1:(WRITE) flags 0x28800 phys_seg 1 prio class 2
Jan 02 20:25:28 PVE kernel: nvme1n1: I/O Cmd(0x1) @ LBA 220207104, 8 blocks, I/O Error (sct 0x0 / sc 0x6)
Long story (logs) short: Die SSD wird in RO-Mode gesetzt, PVE hat entsprechend Probleme weil nicht mehr geschrieben werden kann.
3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
- BIOS: Update auf 1.26.0. 1.29.2 waren "nur" Sicherheitsupdates, bei 1.30.0 steht jetzt tatsächlich was mit Systemstabilität drin, ohne genau zu wissen was. 1.31.1 auf wieder "nur" Sicherheitsupdates.
Im BIOS kann man sonst nicht wirklich was einstellen....
- PVE-Updates auf latest stable non subscription
Zum Testen hatte ich anfangs mal W11 installiert. Das lief "stabil". Als ich da jedoch nach den Problemen mit PVE in die Log geschaut habe (Installation auf einer anderen SSD), waren dort auch ewig viele Fehler drin. Scheinbar kommt es kurzfristig zu Aussetzern, die SSD fängt sich irgendwie wieder und Windows läuft weiter.
Als ich es nochmal mit Windows nachstellen wollte, konnte ich das Verhalten (Fehler im Log) nicht mehr reproduzieren - eventuell hatte ich die Samsung SSD (PCIe 3.0) erwischt.
Ich hatte den Händler des (refurbed) TCs angeschrieben, seine Antwort: Klar, der Rechner kann auch nur PCIe 3.0!
Ich war bisher der Meinung, dass PCIe abwärtskompatibel ist?! In meinem PC läuft eine PCIe 4.0 SSD im 3.0 Slot seit ~2 Jahren, in einem anderen TC (ebenfalls PVE) läuft die Lexar NM790 seit ebenfalls ~ 2 Jahren sogar in einem PCIe 2.0 x1 Slot ohne Murren!
Nun, um es doch noch einmal mit einer PCIe 3.0 SSD zu probieren habe ich nach den Lexar's und der Kioxia jetzt die Samsung drin,
bisher schonmal 18 Tage ohne Absturz geschafft (was ich über Weihnachten auch mit nur der Lexar Play einmal hatte (21 Tage)).
Das Problem tritt auf, egal ob nur eine SSD im "normalen" oder nur im "WiFi" M.2 Slot verbaut ist, oder beide SSDs (eine über Adapter) drin sind.
Dachte erst, dass an dem "WiFi"-M.2 Slot bzw. den Adaptern liegt. Ich hatte allerdings Fehler sowohl mit nvme0n1 als auch mit nvme1n1 als beide SSDs verbaut waren.
Somit nun die Quizfrage:
Hat der Rechner eine Macke, oder liegt es doch daran dass ich PCIe 4.0 SSD(s) in 3.0 Slots betreiber!?!? 😵💫
Mir gehen da etwas die Ideen aus 😔
Habt ihr noch Idee?
Danke!
Ich würde gern wieder auf das Setup mit 2 SSDs wechseln (Lexar NM790 im M.2 Slot (M-Key), Lexar Play 2230 im "WiFi"-M.2-Slot mittels Adapter von A-/E-Key auf M-Key (funktioniert in meinem anderen TC problemlos)), da mit 1 + 4TB mehr Speicherplatz zur Verfügung steht und ich einen zweiten PVE wieder abschalten könnte.