Diskussion und Austausch zu IT-Security und Ransomware

Skysnake · 12. Februar 2021

Snowi schrieb:
Was die Server angeht kann ich nicht mithalten. Wir haben zwar auch viele, aber nicht mehrere Tausend. Interessant ist es trotzdem, weil es sehr verschiedene Sachen sind die da laufen, teilweise Virtuell, teilweise Physisch... Macht Spaß so, bin froh damit arbeiten zu können.

Naja, ich denke das ist deutlich einfacher zu verwalten als in Firmen wo zich Abteilungen zu versorgen sind.

Wir haben in so nem Cluster ne Hand voll Management Knoten, Filesystem, Login, GPU/Visuslisierung und dann 1-3 Compute node Typen. Also im Prinzip 5-7 unterschiedliche Server. Alles andere ist gleich. Teils stateful deployed Großteils stateless. Änderungen laufen da meist auf nen reboot des Servers hinaus.

Also durchaus auch mal 2000 Knoten innerhalb von 10 einschalten. Gibt nen netten Vebrauchskick auf 700kW rum

da schwitzt man das erste mal ob das alles gut geht oder irgendwas die Grätsche macht.

So große Systeme "leben" da geht alle paar Tage mal was kaputt und du findest auch die abstrußesten Software/Firmware Bugs. Wenn der halt mit 0.1% Auftritt haste halt schon 2 Knoten mit dem Problem... wenn man dann noch Boot time Zusagen macht wird halt interessant. Sowas wie in unter 2h von alles aus bis voller Betrieb. Da muss man schon wissen was man macht.

Und dann werden die Kisten halt auch durch die Nutzer richtig getreten. Wir hatten auch schon den Fall das Nutzer Maschinen mit ihren Codes ausgeschaltet haben... der Serverhersteller musste dann alle Boards tauschen... das sind dann so "nette" Aktionen ...

Snowi schrieb:
Problematisch wird's da vor allem durch Software Defined Networking. Auf der einen Seite ein Segen, weil du nicht mehr 50x eine VLAN Änderung auf jedem Switch einzeln aktivieren musst, auf der anderen Seite hast du sehr schnell einen Single Point of Failure, was die Konfiguration angeht. Wenn du ein "klassisches" Netzwerk hast, und du konfigurierst einen Switch kaputt, läuft der Rest noch. Wenn du im Cisco ACI (ist deren Implementation von SDN) was kaputt machst, hast du schnell das gesamte Netzwerk abgeschossen.

Hör mir bitte mit SDN auf... ich habe ganz "tolle" Erfahrung mit Juniper und VXLAN gemacht. Deren Support ist teils ähm ja "kompetent" und das selbst bei Eskalation...

Mein Eindruck ist, die versprechen viel, wenn man aber die Dinger tritt und wirkliche Layer2 Funktionalität ohne Delays will, dann geht es ans Eingemachte...

Hannibal Smith schrieb:
Das ist echt ordentlich,wie schnell ist denn euer Netzwerk im Core angebunden?

Core im Cluster Netz oder in die Kundennetze?

Kundennetz meist so 2x10G bis 4x100G

Clusternetz ist meist FatTree non blocking oder mit niedrigem Faktor wie 1:2. Vor paar Jahren noch 56G jetzt eigentlich nur noch HDR100 an den nodes. Teils mit multiport. Die Spine switchen dann halt mit HDR200 Kabeln angebunden

Management wird über 1G an den nodes und 10/40G an den Managment Servern gemacht.

Braucht man aber eigentlich nur so richtig wenn man die Knoten mit pxe Boot deployed und Boottime commits hat und daher schnell einschalten muss. Ansonsten haste im normalen Betrieb meist nur so 1-10MB/s. Die Last geht ja übers Infiniband/OPA Netzwerk. Da ballert es dann natürlich gewaltig...

Wenn man Storage migrieren muss beim AufBu eines neuen Systems werden aber auch gerne mal mover mit EDR/FDR genommen die dann über Tage/Wochen den neuen Storage befüllen... da ist man froh wenn es Rum ist.

Suche

Diskussion und Austausch zu IT-Security und Ransomware

Skysnake

Captain

Ähnliche Themen