News ChatGPT, X, Ikea und PayPal betroffen: Cloudflare-Ausfall sorgt für massive Störungen im Netz

GrumpyCat schrieb:
macht Wikipedia, die nun wirklich nicht zuviel Admin-Power haben, ihr eigenes CDN
Na ja, Wikipedia ist ja nun auch nicht lebensnotwendig und wenn 20 % des Internets ein paar Stunden ausfällt, dann ist das durchaus kritisch... außerdem nerven die Spendenaufrufe. :D Aber ja, je mehr Systeme involviert sind und je komplexer es wird, desto komplizierter wird die Konfiguration und desto höher ist auch die Fehleranfälligkeit... Loadbalancer und Bot-Abwehr gab es ganz früher noch gar nicht - es funktionierte auch - und nur einzelne Dienste fielen mal aus.
 
@kali-hi Der Punkt ist, dass Wikipedia eigenes sehr günstiges extrem zuverlässiges CDN hat - zuverlässiger und verfügbarer als Cloudflare.

Überleg Dir mal, was auf Wikipedia in Sachen LLM-Crawler seit Jahren an Bot-Traffic einprasseln muss. Trotzdem funktioniert das einfach.
 
  • Gefällt mir
Reaktionen: Rockstar85 und kali-hi
Das Problem bei Hochverfügbarkeit ist auch weniger, dass der Dienst von extern und/oder über die Welt verteilt erreichbar ist, sowas kann man im Grundansatz über BGP mit Anycast-IPs recht simpel lösen.

Teilausfälle (z.B. Packetloss im einstzelligen Prozentbereich oder flappende Routen) sind hier ein Problem welches man wenig bis gar nicht vollumfänglich abbilden / verhindern kann weil man es schlichtweg nicht Ende-zu-Ende (Client zu Server) messen kann bevor man nicht Code auf dem Client ausführen kann.

Das wirklich große Problem ist aber, dass die einzelnen Inseln den gleichen Datenstand haben müssen.
Korrigiert mich falls ich was verpasst habe, aber afaik gibt es keine allgemeine Lösung dafür, dass eine Anwendung, die Daten schreiben muss, im Grunde fast nie mit einem Split-Brain Szenario klarkommt (auch nicht mit orgendwelchen witness-Konstrukten).
Wenn du ein Split-Brain hast und 2 User einen Datensatz gleichzeitig in 2 Clustern verändern wollen, dann kracht es zwangsläufig sofern die Anwendung das nicht irgendwie abfangen bzw. im Nachhinein konfliktfrei zusammenführen/mergen kann.

Dazu kommen natürlich noch beliebige Probleme mit DNS und SSL-Zertifikaten auf die man größtenteils kaum Einfluss hat.

Um auf das eigentliche Thema zurückzukommen:
Das pw-Tool (und andere ähnliche Tools wie interne Wikis oder die eigene Doku auf nem CIFS-Share) könnte man (hinter einer Firewall über die man per VPN connecten muss) bei Anbieter A hosten und da mehrmals täglich einen Sync zu Anbieter B (selbes Setup in kleiner) machen.
Dann kann man vielleicht ne Stunde lang nichts ändern wenn A ausfällt, hat aber seine wichtigsten Daten parat.
Wenn Abieter A in Straßburg steht hat man dann auch den Fall abgedeckt, dass die Bude abbrennt. ;)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: kali-hi
Ich hatte vor ein paar Tagen von Cloudflare auf Quard9 umgestellt und bin zufrieden hatte wenig von diesen Ausfällen gemerkt !

frankkl
 
Blutschlumpf schrieb:
Korrigiert mich falls ich was verpasst habe, aber afaik gibt es keine allgemeine Lösung dafür, dass eine Anwendung, die Daten schreiben muss, im Grunde fast nie mit einem Split-Brain Szenario klarkommt
Auch eine Sache, die ich nicht verstehe. Da soll man doch einfach Graceful Degradation machen statt Rocket Science einzuführen, die keiner versteht und die kaum zu testen ist. Also einfach z.B. den Kram auf Read Only schalten, falls die interne Verbindung die Biege macht, dann kann man in Ruhe diagnostizieren, und diesen Betriebsmodus will man für andere Notfälle ggf. sowieso. Stattdessen wird steif auf "Es muss immer alles 100% verfügbar sein" hingearbeitet und dann trotzdem nur 99% erreicht mit stunden- oder tagelangen (siehe GitHub) peinlichen Komplettausfällen (und genau Null Plan und UI für den "Service ist nur eingeschränkt verfügbar"-Fall).

Wobei ich denke, dass das organisatorisches Versagen ist. Dem Management kann man halt "Graceful Degradation" schlecht verkaufen, wenn sie andererseits auf einem Hipster-Blog gerade von "Master-Master-110%-Datenbanken" gelesen haben.
 
KitKat::new() schrieb:
Ich habe mir den Artikel durchgelesen. Danke, dass pauschal Spekulationen unterstellt werden... sehr höflich.

Schuld war das Ergebnis von SQL-Abfragen, das die doppelte Anzahl an Zeilen enthielt, wodurch Systemlimits überschritten wurden.

Wenn man SQL-Abfragen als reguläre Ausdrücke versteht, dann stimmt das Posting auf X, und es ist keine Spekulation. Aber hey, Hauptsache mal etwas behaupten...
 
kali-hi schrieb:
Wenn man SQL-Abfragen als reguläre Ausdrücke versteht, dann stimmt das Posting auf X, und es ist keine Spekulation.
1. Es ist eine Spekulation gewesen, weil du es vorher nicht wusstest, dir das jedoch zusammengereimt hast. Nichts persönliches gegen dich, kein Grund dich angegriffen zu fühlen.
2. Man versteht SQL-Abfragen für gewöhnlich nicht als reguläre Ausdrücke.
 
  • Gefällt mir
Reaktionen: Quaussi, kali-hi und Rockstar85
kali-hi schrieb:
Wenn man SQL-Abfragen als reguläre Ausdrücke versteht,
Und wenn man Bäume als Autos versteht, dann ist der Amazonas ein riesiger Parkplatz?!

Wie kommst du darauf, dass der Typ, den du hier einfach verlinkt hast, irgendetwas mit Cloudflare zutun hat und nicht nur herumtrollt?
Es ist eine Sache, diesen Kram ungeprüft zu verbreiten, aber sich dann auch noch so zu verteiden ist schon arg peinlich...
 
  • Gefällt mir
Reaktionen: the_IT_Guy
Und schon wieder
1764925117416.png
 
Jup, bei mir sind auch diverse Seiten nicht mehr erreichbar.
 
Zurück
Oben