Ich sollte es eigentlich gesagt haben, aber ich rede nur von Drops auf dem Ingress von ein paar Servern, wobei der Drop mit einer gewissen Anwendung (Monitoring) mit wandert, aber keinen ersichtlichen Einfluss auf diese hat.
Auf den Switches sehen wir im gesamten Netz auch keine Probleme. Bei 1% Nutzung der Bandbreite und L2 switching ja auch kein Wunder. Da schaffen die Switche wohl zu buffern. Man hat ja sowas wie 500x1G wobei jeder 1-10kB sendet auf 1x10G. Also um die eine ms um die Daten über den 10G link zu übertragen. Da wird die Streuung der Sender sicherlich größer sein und da das nur paarmal pro Minute passiert geht es in den Statistiken völlig unter.
Genau die Server um die es geht haben 0 errors laut Monitoring aber eben Drops.
Könnte es aber sein, das ein Endgerät im falschen/keinem VLAN hängt und dann bis zum Server geroutet wird, weil der halt auf dem Port in allen VLANs ist, dann der NIC das aber verwirft, da in dem Subnetz keine IP vorhanden ist? Das kann doch eigentlich nur mit Multicast/Broadcast passieren oder??? Sorry, aber das sind jetzt so kompliziertere Szenarien die ich dann erst mal durchdenken und auch nachschlagen muss...
Ich würde es aber mal ausschließen für die Drops die ich sehe, da wir nur sehr sehr selten solche Bootaktionen haben, darauf aber wegen Verfügbarkeit designen müssen. Also explizit Arbeit reinstecken das performant zu lösen.
Ich wüsste jetzt auch nicht, was ansonsten noch Broad-/Multicasts auslösen könnte. Vor allem nicht in relevanten Umfang. Ich kann mich aber dunkel dran erinnern die Broadcast counter ansteigen zu sehen. Ich bin mir nur nicht sicher ob das nun in oder outgoing traffic ist. Zudem hatte ich mir das während Boots gesehen. Da kamen also von den DHCP Requests welche rein.. ich werde mir das im neuen Jahr definitiv nochmals anschauen!
Wobei, wenn ich drüber nachdenke haben wir natürlich doch eine Quelle für Broadcasts. Die Arp Requests. Da könnte es natürlich sein das einige devices im Netz das regelmäßig machen.
Aber wie unterscheide ich denn jetzt warum gedropped wird? Ich habe dazu nichts gefunden 😔
Aber auf jeden Fall vielen Dank für die Antwort. Genau sowas hatte ich mir erhofft. Das ist jetzt ein neuer Input den ich kontrollieren kann, und wenn es das ist, dann ist der letzte Stein ausgeräumt die Sache richtig eskalieren zu lassen....
Auf den Switches sehen wir im gesamten Netz auch keine Probleme. Bei 1% Nutzung der Bandbreite und L2 switching ja auch kein Wunder. Da schaffen die Switche wohl zu buffern. Man hat ja sowas wie 500x1G wobei jeder 1-10kB sendet auf 1x10G. Also um die eine ms um die Daten über den 10G link zu übertragen. Da wird die Streuung der Sender sicherlich größer sein und da das nur paarmal pro Minute passiert geht es in den Statistiken völlig unter.
Ja, da geht es nur mit outgoing. Sind halt immer die n:1 Szenarien. Aber das ist halt ein zu erwartendes Verhalten das meiner Meinung nach im Allgemeinen zu keinen Problemen führen darf. Vor allem kann es aber nicht sein, das ich keinen Unterschied sehe, wenn ich die Grundlast von einigen Dutzend Mb/s auf 1Gb/s steigere keinen Unterschied beim Fehlerlogging sehe.... wenn es wirklich ein grundsätzliches Problem wäre müssten die Fehler ja viel viel häufiger auftreten. Tun Sie aber nicht -> Ausrede vom Support..timeh_ schrieb:Dem kann ich nicht zustimmen wenn es sich um 2 Switches handelt. Dort kann incoming eigentlich auf zb. einem 1G interface nicht mehr als 1G ankommen. auch nicht 1,000001G weil die Gegenstelle genau nur 1G senden kann.
Ja???timeh_ schrieb:Wenn wie von dir beschrieben es um verschiedene installationen, mit verschiedenen Bandbreiten und verschiedenem Netwerk Equipment, wirklich nur die eine und die selbe Applikation betroffen ist, na dann....
Ergänzung ()
Ja, die Switch Ports sind im Allgemeinen komplett sauber. Klar hat man mal nen Flapping Link wegen kaputten Kabel oder nen kaputten Transciever, aber das wird erkannt und erst mal reseeded und dann getauscht.dzorg schrieb:Die Statistiken der Switchports sind alle sauber?
Nur ein/mehrere NICs in den Servern zeigen incoming drops? Aber KEINE incoming Errors?
Genau die Server um die es geht haben 0 errors laut Monitoring aber eben Drops.
Gut, das passt ja zu dem was ich herausgefunden habe als nicht orginärer Netzwerker. Ich kenne mich da durchaus bei Ethernet und IB aus bis in die technischen Details vom Routing/Protokollen, bin aber kein orginärer Netzwerker. Habe also garantiert Wissenslücken...dzorg schrieb:Das deutet meiner bisherigen Erfahrung nach NICHT auf das Netzwerk hin. Der Adapter im Server entscheidet sich, aus welchen Gründen auch immer, korrekt und fehlerfrei empfangene Pakete zu droppen. An der Stelle ist das Netzwerk bereits außen vor. Die Pakete wurden korrekt übermittelt.
Nur weil ein Server 10G/40G/100G Adapter hat bedeutet das nicht zwangsläufig, dass OS/Kernel/Treiber/Software die Datenmenge auch “wegschaffen“ können, unter allen Umständen. Du hast ja mehrfach betont, dass dein Traffic starken Burst Charakter hat, also brachiale Auslastung für kurze Momente. Da lächelt ein guter Enterprise Switch nur müde drüber, die ihr ja offensichtlich habt. Im Server kann es aber kurzzeitig Limits gesprengt haben.
Hmm... wir verwenden VLANs in der Regel. Eventuell haben wir aber auch eine Installation ohne, wobei ja immer irgendwas mit VLANs unabsichtlich konfiguriert ist... wobei wir die Switche unter Kontrolle haben und dann genau wissen welche VLANs an welchem Port an liegen. Das passt an sich auch. Wir haben da nur statische Configs...dzorg schrieb:Es könnte sich aber auch um reguläre Drops handeln von Traffic, der den Server nicht interessiert. Pakete mit keinem oder falschem VLAN Tag zum Beispiel.
Könnte es aber sein, das ein Endgerät im falschen/keinem VLAN hängt und dann bis zum Server geroutet wird, weil der halt auf dem Port in allen VLANs ist, dann der NIC das aber verwirft, da in dem Subnetz keine IP vorhanden ist? Das kann doch eigentlich nur mit Multicast/Broadcast passieren oder??? Sorry, aber das sind jetzt so kompliziertere Szenarien die ich dann erst mal durchdenken und auch nachschlagen muss...
Hmm... das ist ein interessanter Einwurf! Wir haben z.b. bewusst Broadcast Stormprotection ausgeschaltet, da wir sehe schnell alle Server einschalten können wollen. Vom DHCP Server her können wir auch >1000 DHCP requests pro Sekunde bearbeiten und sehen beim Booten auch nicht, dass die Systeme zwei DHCP requests machen müssten. Zumindest wäre uns das bisher nicht aufgefallen. Aber ich werde mal explizit darauf achten.Oder kurzzeitiges, massives Multicast/Broadcast Aufkommen. Da wird auch gern mal was weg geschmissen, wenn es Schwellwerte überschreitet.
Ich würde es aber mal ausschließen für die Drops die ich sehe, da wir nur sehr sehr selten solche Bootaktionen haben, darauf aber wegen Verfügbarkeit designen müssen. Also explizit Arbeit reinstecken das performant zu lösen.
Ich wüsste jetzt auch nicht, was ansonsten noch Broad-/Multicasts auslösen könnte. Vor allem nicht in relevanten Umfang. Ich kann mich aber dunkel dran erinnern die Broadcast counter ansteigen zu sehen. Ich bin mir nur nicht sicher ob das nun in oder outgoing traffic ist. Zudem hatte ich mir das während Boots gesehen. Da kamen also von den DHCP Requests welche rein.. ich werde mir das im neuen Jahr definitiv nochmals anschauen!
Wobei, wenn ich drüber nachdenke haben wir natürlich doch eine Quelle für Broadcasts. Die Arp Requests. Da könnte es natürlich sein das einige devices im Netz das regelmäßig machen.
Aber wie unterscheide ich denn jetzt warum gedropped wird? Ich habe dazu nichts gefunden 😔
Aber auf jeden Fall vielen Dank für die Antwort. Genau sowas hatte ich mir erhofft. Das ist jetzt ein neuer Input den ich kontrollieren kann, und wenn es das ist, dann ist der letzte Stein ausgeräumt die Sache richtig eskalieren zu lassen....
Zuletzt bearbeitet: