Neuer Router für Home Assistant

Gepi87

Lt. Commander
Registriert
Nov. 2007
Beiträge
1.313
Hallo,

IIn den letzten Wochen hab ich mir ein kleines Smart Home zusammengebaut und soweit funktioniert alles ganz gut, allerdings kommt es immer wieder vor, dass mein Home Assistant Server (Intel NUC) neuerdings abstürzt. Nach mehreren Tagen testen verschiedenster Varianten, scheint es mir so, dass der alte Router TP-Link Archer C6 v2 überlastet sein dürfte. Einerseits ist der Prozessor im Router stets über 90% auch wenn nix passiert, andererseits crasht das System vorwiegend, wenn noch weitere Geräte hinzugefügt werden, wie zB zwei neue Switchbot Geräte.
Die Neustarts vom HA-Server kommen auch meist unerwartet, oftmals Stundenlang alles stabil, wenn ich gar nix mach auch Tagelang. Findet Aktivität statt, kommts teilweise zu Crashes im 10min Takt.

Ich hab mal grob mein Netzwerk skizziert - Im Anhang

Smart Geräte sind 9 Tuya W-LAN Steckdosen.
Seit ich eine weitere Switchbot W-LAN Steckdose und LED Stripe im Home Assistant eingebunden habe, begannen die Probleme.
Gigabit Switch ist der TP-Link TL-SG108
2,5GbE ist der Cudy HS105

Nun ist meine Frage, ob der einerseits Router tatsächlich mit dem Setup überfordert sein könnte und die HA-Server Abstürze zu verantworten hat, laut Google Suche ja, andererseits welcher Router empfehlenswert wäre, bzw auch noch Spielraum für weitere Geräte lässt?
Beim Thema Router weiß ich leider nur von dem was ich gelesen habe, dass Fritz eine gute Marke ist, aber welches Modell ist für diesen Anwendungsfall empfehlenswert?

Danke für die Hilfe schon im Voraus. :confused_alt:
 

Anhänge

  • 1766441275287.png
    1766441275287.png
    147,9 KB · Aufrufe: 134
Gepi87 schrieb:
Nun ist meine Frage, ob der einerseits Router tatsächlich mit dem Setup überfordert sein könnte und die HA-Server Abstürze zu verantworten hat

Nein.

Gepi87 schrieb:
Intel NUC) neuerdings abstürzt.

Meiner auch. Das lag an neueren Kerneln. Die fehlenden BIOS-Updates waren die Lösung.
 
  • Gefällt mir
Reaktionen: madmax2010 und Gepi87
Ok, danke für den Tipp, weil auch gleichzeitig neuere HA Versionen gekommen sind.
Meiner ist der nuc7i7dnk2e also mit i7-8650U, mal schauen was ich so finden kann.
 
Die CPU in deinem Router hat kaum was mit Routing und switching zu tun. Eher mit dem webinterface und diensten wie DHCP und firewall.
Ob 3 oder 30 geräte verbunden sind ist der cpu egal
 
  • Gefällt mir
Reaktionen: Gepi87
Hab jetzt grad von Bios Version 52.2018 auf 82.2024 aktualisiert ... hoffentlich hilfts ... Danke für den Tip, das bios dürfte 7 Jahre alt gewesen sein xD

EDIT:
Leider wurde das Problem durch das Bios Update nicht behoben.... Random Neustarts.
 

Anhänge

  • Screenshot_20251224_105929_Home Assistant.jpg
    Screenshot_20251224_105929_Home Assistant.jpg
    66,8 KB · Aufrufe: 51
Zuletzt bearbeitet:
Lass doch mal einen Memtest laufen… Könnte ja ein Hardwareproblem sein. RAM, SSD oder Netzteil…
 
  • Gefällt mir
Reaktionen: Gepi87
Gepi87 schrieb:
das bios dürfte 7 Jahre alt gewesen sein xD

Vielleicht ist es Zeit für was Neues.


Gepi87 schrieb:
Leider wurde das Problem durch das Bios Update nicht behoben..

Steht dazu was im Log drin?

Code:
Journalctl --boot=-1

Oder direkt in /var/log schauen ob es da .1 Datein gibt für messages/ syslog / kern.log.
 
  • Gefällt mir
Reaktionen: Gepi87
Nordwind2000 schrieb:
Lass doch mal einen Memtest laufen… Könnte ja ein Hardwareproblem sein. RAM, SSD oder Netzteil…
Wie kann ich unter HA ein Memtest laufen lassen, bei Google werd ich nicht fündig.
JumpingCat schrieb:
Vielleicht ist es Zeit für was Neues.
Ist ein NUC7I7DNK2E mit 16Gb RAM, 500GB Nvme und i7 8650u. Wurde in der Arbeit vor paar Monaten aussortiert und da zumindest ähnlich flotte Mini PC's auch heute noch 200€+ kosten, würd ichs gerne weiter verwenden. Die ersten Wochen lief auch alles stabil, erst seit 2 Wochen als die 2025.12.x updates kamen wurde es instabil.
JumpingCat schrieb:
Steht dazu was im Log drin?
Über die Feiertage war ich nicht in der Wohnung, hab ich alles abgedreht, gestern wieder aufgedreht, altes Backup drauf, stabil für einige Stunden. Unter der scheinbaren Sicherheit hab ich am Abend wieder paar Sachen angepasst, gegen Mitternacht ins Bett, plötzlich hat die automatisierung für eine "Reboot" Meldung angeschlagen.

Das ist das einzige was in Gelb beim Systemstart unter Supervisor (v12.3) gezeigt wird:
Code:
2025-12-27 01:07:00.259 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Nginx Proxy Manager' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.261 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Glances' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.265 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'MQTT IO' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.270 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Tailscale' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.271 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Overseerr' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.283 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Log Viewer' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.285 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Grocy' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.286 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Folding@home' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.290 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'Traccar' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.
2025-12-27 01:07:00.297 WARNING (SyncWorker_1) [supervisor.addons.validate] Add-on 'InfluxDB' uses deprecated 'codenotary' field in config. This field is no longer used and will be ignored. Please report this to the maintainer.

Der HA Core zeigt mir diese Meldungen -> Anhang


JumpingCat schrieb:
Oder direkt in /var/log schauen ob es da .1 Datein gibt für messages/ syslog / kern.log.
Übern File Editor komme ich da nicht hin.

EDIT:
Neu ist nun allerdings, dass diese Random Neustarts jetzt nach dem BIOS Update in längeren Intervallen stattfinden, also statt alle 10-20min nur alle paar Stunden mal.

Was mir aufgefallen ist, im Host Protokoll (Anhang) wird immer wieder nach einem Neustart auf folgende Seiten verwiesen:
https://www.kernel.org/doc/html/latest/admin-guide/hw-vuln/processor_mmio_stale_data.html
https://www.kernel.org/doc/html/latest/admin-guide/hw-vuln/mds.html
Und im Zuge der Neustarts gibts ziemlich viele "Error" Meldungen, aber als Nicht IT-Experte kann ich nur feststellen, dass da was nicht passt, was aber genau, kann ich leider nicht rauslesen.
 

Anhänge

  • 1766831176330.png
    1766831176330.png
    25 KB · Aufrufe: 30
  • 1766831268384.png
    1766831268384.png
    9,7 KB · Aufrufe: 32
  • Host Protokoll.zip
    Host Protokoll.zip
    193,9 KB · Aufrufe: 33
Zuletzt bearbeitet:
Gepi87 schrieb:
Wie kann ich unter HA ein Memtest laufen lassen,
Lade dir ein bootfähiges Image mit Memtest runter oder eine Live-ISO von einem Linux nach Wahl. Dort gibt es meistens die Möglichkeit einen Memtest durchzuführen.
 
  • Gefällt mir
Reaktionen: JumpingCat und Gepi87
Hab mir die Memtest86+ Bootable ISO hier von CB geladen und den ersten Pass ohne Fehler durchlaufen, Sicherheitshalber lass ich aber mindestens 4 Durchgänge.
Am ersten Blick scheint die Hardware jedenfalls in Ordnung zu sein.

EDIT:
Nach 3h und 4 Durchläufe, kein Fehler, denke Hardware sollte stabil laufen.
 

Anhänge

  • 1766847670446.png
    1766847670446.png
    1,8 MB · Aufrufe: 33
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Gepi87
Ok, dann bin ich schon aufs Ergebnis morgen früh gespannt :hammer_alt:

UPDATE:
Lange hats nicht gedauert ... nach dem ersten Durchlauf ein Fehler.

Nun aber kommen die Fragen:

1) Kann so ein einzelner Fehler nach 20min, nachdem zuerst am Nachmittag 3h alles gut lief für so vereinzelte Abstürze im HAOS verantwortlich?

2) Bedeutet die Angabe bei "Failing Address", dass nur der eine RAM Riegel betroffen ist der diese Addresse bei 9,23GB beinhaltet und ich im Besten Fall einfach den Riegel raus nehmen kann und das System läuft stabil?

3) sollten noch mehrere Fehler kommen und ebenfalls die Failing Address zwischen 8-16GB sein, kann ich dann weiterhin mit nur einem defekten Riegel rechnen oder bedeutet gemäß diesem Posting hier, dass ich dann beide RAM Riegel sozusagen kübeln kann und das eigentlich einem Totalschaden bei dem System und den aktuellen RAM Preisen entspricht?
 

Anhänge

  • 1766866973549.png
    1766866973549.png
    1,5 MB · Aufrufe: 34
Zuletzt bearbeitet:
Gepi87 schrieb:
Abstürze im HAOS verantwortlich?
Jup... Es bedeutet das dein RAM nicht in Ordnung ist oder etwas mit der CPU / Mainboard nicht stimmt.
Ergänzung ()

Ich würde beide Riegel tauschen. Sicher ist sicher. Ein Home Assistant sollte stabil und zuverlässig laufen.
 
  • Gefällt mir
Reaktionen: Gepi87
@Nordwind2000 Bedeutet das, wenn ich mir neue 16GB RAM hole, hab ich dennoch keine Sicherheit, ob dann vielleicht nicht doch CPU oder MB den Fehler verursachen? - bzw bestellen Testen und im Fehlerfall wieder zurück schicken?

Bin jetzt grad am Überlegen, welche Varianten mir offen stehen, grundsätzlich wäre es schön gewesen günstig einen performanten Home Assistant aufzubauen, in diesem Fall würde ich gerne meine zusätzlichen Ausgaben unter 2-300€ halten.
 
@redjack1000 Heute Nacht lass ich den Memtest noch weiter laufen um sicher zu gehen und kann man anhand der Failing Address sagen welcher RAM-Riegel betroffen ist oder muss ich dann beide einzeln probieren?
 
Gepi87 schrieb:
bestellen Testen und im Fehlerfall wieder zurück schicken?
So kann man es sagen. Du könntest allerdings auch wie es redjack erwähnt jedes einzeln testen und nur mit 8 GB fahren. Aber HA ist so umfangreich, dass am Ende 8 GB eng werden können. Gerade wenn man noch HACS nutzt und viele PlugIns hat. Kommt natürlich auf die Hardware im Smarthome an.
 
  • Gefällt mir
Reaktionen: Gepi87
Ok, danke für den Tipp, hab jetzt mal den Test mit dem ersten Modul gestartet.

8GB sollten bis auf weiteres hoffentlich reichen, bisher war die Auslastung immer bei rund 2GB, größere Erweiterungen sind die kommenden Monate nicht geplant.
 
  • Gefällt mir
Reaktionen: Nordwind2000
Gepi87 schrieb:
Was mir aufgefallen ist, im Host Protokoll (Anhang) wird immer wieder nach einem Neustart auf folgende Seiten verwiesen:

Ähm nein, das ist was anderes. Da geht es nur darum das deine CPU alt ist und keinen Hardwareschutz gegen bestimmte Angriffe implementiert hat.

Pauschal sind auch andere Leute von spontanen Reboots geplagt wenn man etwas in https://github.com/home-assistant/operating-system stöbert.

Ich habe dein Log mal durchgeschaut.
  • Es ist auffällig das Bluetooth instabil läuft. Brauchst du das?
  • Docker scheint auch instabil zu sein, da sind zu viele Meldungen mit starten und stoppen von Containern.
  • Der Timesyncd erreicht zwar einen Time-Server, aber scheitert oft. Du hast Netzwerkprobleme.

Aber: Es gibt keinen einzigen Hinweis auf Hardware-Probleme in den Logfiles. Überlicherweise findet man direkt vor der Zeile mit "Command line: BOOT_IMAGE=" Fehlermeldungen die noch in letzter Sekunde protokolliert werden. RAM würde ich damit ausschließen, weil sonst würden auch diverse Prozeße einfach crashen und Spuren in den Logfiles hinterlassen.

Eventuell ist die NVME/SSD hinüber und hängt sich spontan auf. Das erklärt das nichts mehr geloggt wird. Oder es gibt allgemein Probleme mit der Spannungsversorgung.

Dagegen spricht aber das das BIOS-Update die Häufigkeit der Crashes verändert hat.

Wie schauen die Werte der Samsung SSD 970 EVO aus wenn du folgendes ausführst "nvme smart-log /dev/nvme0n1"? Gibt es da media_errors?

Hast du ein alternatives Netzteil zum Testen?
 
Zurück
Oben