Na ja, Wikipedia ist ja nun auch nicht lebensnotwendig und wenn 20 % des Internets ein paar Stunden ausfällt, dann ist das durchaus kritisch... außerdem nerven die Spendenaufrufe.GrumpyCat schrieb:macht Wikipedia, die nun wirklich nicht zuviel Admin-Power haben, ihr eigenes CDN
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News ChatGPT, X, Ikea und PayPal betroffen: Cloudflare-Ausfall sorgt für massive Störungen im Netz
Blutschlumpf
Fleet Admiral
- Registriert
- März 2001
- Beiträge
- 20.621
Das Problem bei Hochverfügbarkeit ist auch weniger, dass der Dienst von extern und/oder über die Welt verteilt erreichbar ist, sowas kann man im Grundansatz über BGP mit Anycast-IPs recht simpel lösen.
Teilausfälle (z.B. Packetloss im einstzelligen Prozentbereich oder flappende Routen) sind hier ein Problem welches man wenig bis gar nicht vollumfänglich abbilden / verhindern kann weil man es schlichtweg nicht Ende-zu-Ende (Client zu Server) messen kann bevor man nicht Code auf dem Client ausführen kann.
Das wirklich große Problem ist aber, dass die einzelnen Inseln den gleichen Datenstand haben müssen.
Korrigiert mich falls ich was verpasst habe, aber afaik gibt es keine allgemeine Lösung dafür, dass eine Anwendung, die Daten schreiben muss, im Grunde fast nie mit einem Split-Brain Szenario klarkommt (auch nicht mit orgendwelchen witness-Konstrukten).
Wenn du ein Split-Brain hast und 2 User einen Datensatz gleichzeitig in 2 Clustern verändern wollen, dann kracht es zwangsläufig sofern die Anwendung das nicht irgendwie abfangen bzw. im Nachhinein konfliktfrei zusammenführen/mergen kann.
Dazu kommen natürlich noch beliebige Probleme mit DNS und SSL-Zertifikaten auf die man größtenteils kaum Einfluss hat.
Um auf das eigentliche Thema zurückzukommen:
Das pw-Tool (und andere ähnliche Tools wie interne Wikis oder die eigene Doku auf nem CIFS-Share) könnte man (hinter einer Firewall über die man per VPN connecten muss) bei Anbieter A hosten und da mehrmals täglich einen Sync zu Anbieter B (selbes Setup in kleiner) machen.
Dann kann man vielleicht ne Stunde lang nichts ändern wenn A ausfällt, hat aber seine wichtigsten Daten parat.
Wenn Abieter A in Straßburg steht hat man dann auch den Fall abgedeckt, dass die Bude abbrennt.
Teilausfälle (z.B. Packetloss im einstzelligen Prozentbereich oder flappende Routen) sind hier ein Problem welches man wenig bis gar nicht vollumfänglich abbilden / verhindern kann weil man es schlichtweg nicht Ende-zu-Ende (Client zu Server) messen kann bevor man nicht Code auf dem Client ausführen kann.
Das wirklich große Problem ist aber, dass die einzelnen Inseln den gleichen Datenstand haben müssen.
Korrigiert mich falls ich was verpasst habe, aber afaik gibt es keine allgemeine Lösung dafür, dass eine Anwendung, die Daten schreiben muss, im Grunde fast nie mit einem Split-Brain Szenario klarkommt (auch nicht mit orgendwelchen witness-Konstrukten).
Wenn du ein Split-Brain hast und 2 User einen Datensatz gleichzeitig in 2 Clustern verändern wollen, dann kracht es zwangsläufig sofern die Anwendung das nicht irgendwie abfangen bzw. im Nachhinein konfliktfrei zusammenführen/mergen kann.
Dazu kommen natürlich noch beliebige Probleme mit DNS und SSL-Zertifikaten auf die man größtenteils kaum Einfluss hat.
Um auf das eigentliche Thema zurückzukommen:
Das pw-Tool (und andere ähnliche Tools wie interne Wikis oder die eigene Doku auf nem CIFS-Share) könnte man (hinter einer Firewall über die man per VPN connecten muss) bei Anbieter A hosten und da mehrmals täglich einen Sync zu Anbieter B (selbes Setup in kleiner) machen.
Dann kann man vielleicht ne Stunde lang nichts ändern wenn A ausfällt, hat aber seine wichtigsten Daten parat.
Wenn Abieter A in Straßburg steht hat man dann auch den Fall abgedeckt, dass die Bude abbrennt.
Zuletzt bearbeitet:
Die Schattenseite ist (weiß aber nicht, ob es stimmt), dass nur ein fehlerhafter RegEx daran schuld war. Der Entwickler wurde schon entlassen:
https://x.com/robj3d3/status/1990801329061835111
https://x.com/robj3d3/status/1990801329061835111
KitKat::new()
Vice Admiral Pro
- Registriert
- Okt. 2020
- Beiträge
- 6.723
Spekulationen sind nicht notwendig, gibt einen offiziellen Artikel zum Vorfall:kali-hi schrieb:Die Schattenseite ist (weiß aber nicht, ob es stimmt), dass nur ein fehlerhafter RegEx daran schuld war
https://blog.cloudflare.com/18-november-2025-outage/
Auch eine Sache, die ich nicht verstehe. Da soll man doch einfach Graceful Degradation machen statt Rocket Science einzuführen, die keiner versteht und die kaum zu testen ist. Also einfach z.B. den Kram auf Read Only schalten, falls die interne Verbindung die Biege macht, dann kann man in Ruhe diagnostizieren, und diesen Betriebsmodus will man für andere Notfälle ggf. sowieso. Stattdessen wird steif auf "Es muss immer alles 100% verfügbar sein" hingearbeitet und dann trotzdem nur 99% erreicht mit stunden- oder tagelangen (siehe GitHub) peinlichen Komplettausfällen (und genau Null Plan und UI für den "Service ist nur eingeschränkt verfügbar"-Fall).Blutschlumpf schrieb:Korrigiert mich falls ich was verpasst habe, aber afaik gibt es keine allgemeine Lösung dafür, dass eine Anwendung, die Daten schreiben muss, im Grunde fast nie mit einem Split-Brain Szenario klarkommt
Wobei ich denke, dass das organisatorisches Versagen ist. Dem Management kann man halt "Graceful Degradation" schlecht verkaufen, wenn sie andererseits auf einem Hipster-Blog gerade von "Master-Master-110%-Datenbanken" gelesen haben.
Ich habe mir den Artikel durchgelesen. Danke, dass pauschal Spekulationen unterstellt werden... sehr höflich.KitKat::new() schrieb:Spekulationen
Schuld war das Ergebnis von SQL-Abfragen, das die doppelte Anzahl an Zeilen enthielt, wodurch Systemlimits überschritten wurden.
Wenn man SQL-Abfragen als reguläre Ausdrücke versteht, dann stimmt das Posting auf X, und es ist keine Spekulation. Aber hey, Hauptsache mal etwas behaupten...
KitKat::new()
Vice Admiral Pro
- Registriert
- Okt. 2020
- Beiträge
- 6.723
1. Es ist eine Spekulation gewesen, weil du es vorher nicht wusstest, dir das jedoch zusammengereimt hast. Nichts persönliches gegen dich, kein Grund dich angegriffen zu fühlen.kali-hi schrieb:Wenn man SQL-Abfragen als reguläre Ausdrücke versteht, dann stimmt das Posting auf X, und es ist keine Spekulation.
2. Man versteht SQL-Abfragen für gewöhnlich nicht als reguläre Ausdrücke.
Web-Schecki
Lt. Commander
- Registriert
- Juni 2010
- Beiträge
- 1.191
Und wenn man Bäume als Autos versteht, dann ist der Amazonas ein riesiger Parkplatz?!kali-hi schrieb:Wenn man SQL-Abfragen als reguläre Ausdrücke versteht,
Wie kommst du darauf, dass der Typ, den du hier einfach verlinkt hast, irgendetwas mit Cloudflare zutun hat und nicht nur herumtrollt?
Es ist eine Sache, diesen Kram ungeprüft zu verbreiten, aber sich dann auch noch so zu verteiden ist schon arg peinlich...
the_IT_Guy
Lieutenant Pro
- Registriert
- Jan. 2017
- Beiträge
- 523
Und schon wieder
Yakomo
Commander
- Registriert
- Dez. 2008
- Beiträge
- 2.538
Jop, Cloudflare ist mal wieder ne Bitch...
https://www.cloudflarestatus.com/
https://www.cloudflarestatus.com/
- Registriert
- Feb. 2009
- Beiträge
- 1.673
Jup, bei mir sind auch diverse Seiten nicht mehr erreichbar.
- Registriert
- Jan. 2008
- Beiträge
- 7.779
1 Strung, hunderte Meldungen