Stromprobleme

dkreider

Newbie
Registriert
Aug. 2022
Beiträge
1
Liebe Community,

verzeiht mir bitte, wenn ich im falschen Sub-Forum gelandet bin. Mein Problem ist etwas speziell und ich konnte mich nicht entscheiden. Wenn’s falsch ist, bitte schieben. Mein Schwerpunkt liegt eher im Software Development, ich übernehme aber auch den Head of IT. Seid mir bitte nicht böse, wenn ich das ein oder andere Begriff vielleicht falsch benutze oder Anglizismen verwende. Ich versuche mich auch so gut wie es geht kurz zu fassen, deswegen lasse ich erst mal viele Details und Specs weg, selbstverständlich kann ich es alles nachreichen. Sagt mir, was ihr wissen wollt.

Ich arbeite in einem VFX-Studio, also haben wir einige Power-hungrige Rechner im Büro stehen, aber auch viele so genannte Render-Blades im Serverraum. Die Blades sind 1HE Rechner mit dicken Ryzens, 128Gb Ram, M2-SSDs ohne GPUs (da wir immer noch auf den CPUs rendern). AMD hat in diesem Bereich in den letzten Jahren für Wirbel gesorgt und wir haben drauf gesetzt. Unschlagbares Preis/Leistung Verhältnis.

Wir sitzen in Berlin in einem, na ja „nicht so modernem Gebäude“. Letztes Jahr haben wir unsere RenderFarm (im ServerRaum) verdoppelt. Zeitgleich ging es mit den Problemen langsam los. Alte und neue Blades haben angefangen unter Last sich aufzuhängen. Und zwar so der maßen stark, dass man sie erst vom Strom nehmen muss, bevor sie überhaupt wieder anspringen. Also wirklich Kabel aus dem Netzteil ziehen, sonst passiert da gar nix. Unter Last, wenn alles in der Firma grade läuft, schafft so eine RenderBlade teilweise nur 7-18 Minuten online zu bleiben, dann knallt’s weg. Selbstverständlich haben wir eine solcher Blades dann dem Verkäufer (mit Empörung) zurückgeschickt. Er hat alles gecheckt und nichts gefunden. Bei ihm lief die Kiste mit prime95 4 Tage am Stück ohne Probleme. Daraufhin habe ich meinen Kollegen drum gebeten die Kiste in seinem Studio zu testen. Ähnlich – 17h prime95 – kein Thema, läuft wie geschmiert. Ohh-kaaaayy. Kiste auf der Bank bei „offenen Leibe“ unter Last beobachtet. Die CPU wird zwar heiß, aber imho immer noch im machbarem Bereich (Paste, Pads etc erneuert). Es fiel auf, dass die Kondensatoren um den CPU-Sockel unglaublich heiß werden. Wenn man mit nem Industrie-Fan drauf pustet, hält es länger, aber auch keine 2h. Ich habe die Kiste dann nach hause geschleppt. 28h prime95 – läuft einwandfrei, bei 35°C Raumtemperatur (war im Hochsommer). Ich habe es meinem Vater (Elektro-Ingenieur längst in Rente) erzählt, daraufhin hat er Alarm geschlagen. Hat mir versucht in „kindischer“ Sprache zu erklären, dass wir sehr wahrscheinlich Strom-Probleme haben (und meinte, dass ich auf gar keinen Fall es so Wort-in-Wort jemand anders erzählen soll, weil man uns dann beide für bekloppt hält. Elektrizität ist wirklich nicht mein Fachgebiet ;) ). Er meinte wir sollten einen sehr guten Elektriker besorgen, der uns alle Leitungen auf Herz und Nieren checkt. Das ist uns bis heute, meiner Meinung nach, nicht wirklich gelungen. Es wurden die Steckdosen morgens um 9 durchgecheckt, als ich neulig im Urlaub war. Dabei war ca 80% der Hardware am idlen. Meiner Meinung nach ist so ein Test einfach nur nutzlos. Nachdem mich mein IT-Kollege immer wieder mit Vorwürfen, es läge an meinen Batch-Scripts, die die Software bootstrapen, bequatscht hatte, haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos. Dann ging die Batterie kaputt. Wir haben auch ein überteuertes HP-Z8 Monster, welches nach Autodesk-Vorschriften gebaut und zertifiziert wurde, um ADSK Flame zu nutzen. Dort ist in den vergangenen 8 Monaten 2 Mal eine Kona AJA Karte VERBRANNT. Eine 2.000 € Audio-Karte. Nun hat er nen einfachen Weg gefunden, dem Problem aus dem Weg zu gehen. Hat haufenweise Geld ausgegeben um neue, bessere, teurere Netzteile in die Blades zu verbauen. Tjo das hilft nur vorübergehend. Die Rechner halten länger, hängen sich aber wieder auf. Nun behauptet er, dass es an dem Quick-Time-Player Update Tool liegt, was immer mal wieder aufploppt.

Ich bin mit meinem Latein am Ende. Für mich liegt das Problem im Stromnetz. Der Kollege behauptet, es wäre immer wieder irgendwelche Software. Bin ich wirklich SO bekloppt? Ich dachte schon immer, dass Software, oder sogar Scripts, die bleibenden Hardware Schäden verursachen ein Virus der 3. Generation wären – also irgendwas aus schlechten Sci-Fi-CyberPunk Romanen. Und wieso performen dann die Blades überall anders wunderbar Tage- und Wochenlang, nur nicht bei uns im Office? Hat Prime95 nen GPS-Tracker ? :D
 
  • Gefällt mir
Reaktionen: e_Lap
Mal ganz simple die Spannung über einen Tag getracked ? Liegt ja, je nach Last, nicht immer die gleiche Spannung an :)
 
  • Gefällt mir
Reaktionen: drago1401
Allein der Test mit einem USV zeigt ja die Probleme. Eurer Netz wird Schwankungen haben, die dadurch ausgeglichen werden konnten.
Was sagt denn der Netzbetreiber o. Vermieter, auf welche Leistung eure Anschlüsse ausgelegt sind?
 
  • Gefällt mir
Reaktionen: t-6, paccoderpster und e_Lap
dkreider schrieb:
Nachdem mich mein IT-Kollege immer wieder mit Vorwürfen, es läge an meinen Batch-Scripts, die die Software bootstrapen, bequatscht hatte, haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos.
Moment, teilst du uns gerade ernsthaft mit dass ihr eure gesamte Hardware bis dahin ohne USV davor betrieben habt? Entschuldige bitte, ich muss mal kurz ins Schlafzimmer gehen und in mein Kissen schreien, so kriminell falsch ist das. Selbst ohne Probleme mit dem Hausnetz geht das überhaupt nicht an.

Situation ist doch eigentlich eindeutig - Problem seit mehr Hardware da ist, Hardware funktioniert zu Niedriglastzeiten und in anderen Stromnetzen einwandfrei, USV behob die Probleme -> Stromnetz ist das Problem. Ist ein Thema für den Vermieter und dessen Elektriker.
 
  • Gefällt mir
Reaktionen: t-6, paccoderpster, d3nso und 4 andere
dkreider schrieb:
haben wir es mit nem USV ausprobiert. Damit lief ein Server-Schrank n Monat lang komplett problemlos.
Der Schuldige ist doch bereits gefunden. Das Stromnetz. Wieso wird / wurde das ignoriert.
 
  • Gefällt mir
Reaktionen: Martinipi, madmax2010 und coasterblog
Klingt für mich als absoluten Laien so, als hättet ihr einfach zu starke Schwankungen im Stromnetz, die die Netzteile im Blade zwar abfangen und ausgleichen sollten, aber durch die Höhe/Masse einfach nicht mehr handelbar sind. Würde meiner Neulingsmeinung auch erklären wieso die Batterie der USV so schnell hinüber war.
 
  • Gefällt mir
Reaktionen: paccoderpster und e_Lap
Das erste Mal, das die Überschrift quasi die Lösung ist ^^
 
  • Gefällt mir
Reaktionen: dh9, rage222 und Helge01
dkreider schrieb:
Wir sitzen in Berlin in einem, na ja „nicht so modernem Gebäude“. Letztes Jahr haben wir unsere RenderFarm (im ServerRaum) verdoppelt. Zeitgleich ging es mit den Problemen langsam los.

Einach neue Server reingesteckt oder auch gerechnet bzw. mit dem Elektriker gesprochen, ob die bestehende Verkabelung das kann.

Falls ihr nicht Eigentümer seid, sprecht mit dem Vermieter und sucht euch dann einen Elektriker.

Bis dahin gehören die Server streng genommen abgeschaltet. Das kann im Zweifelsfall lebensgefährlich sein und du/ihr seid haftbar!
 
F31v3l schrieb:
Das kann im Zweifelsfall lebensgefährlich sein
Blödsinn, für das gibt es ja Sicherungen die rausfallen...
 
  • Gefällt mir
Reaktionen: bart0rn und e_Lap
Wahrscheinlich noch so ein altes Gebäude wo Alu-Stegleitungen in den Wänden liegen oder so :D :D - Also aus meiner Sicht geht das wohl auch in Richtung Stromnetz
 
Puhhh.. ganz ehrlich, wo soll man da anfangen.

Es könnte (!) an einer zu starken (Überlast-)Last an den entsprechenden Endstromkreisen liegen.
Wie viel Watt zieht denn ein Netzteil eines Blades?
Wie viele Blades hängen an ein und demselben Stromkreis?
Wie viel Spannung liegt an den Stromkreisen an?
Da P=U×I bzw. I=P/U kannst du schnell (ohne Berücksichtigung vom Leistungfaktor) ausrechnen, wie viel Ampere fließen und somit die Thermik mehr wird, wenn von den "üblichen" 230V auf Grund eurer alten Anlagenteile "nur" 210V ankommen.

Es könnte aber auch an Oberschwingungen liegen die Aufgrund der Kondensatoren in eure Blades das Netz belasten. Ob und wie hoch Oberschwingungen vorhanden sind, kann nur gemessen werden.

All dies, wie auch die tatsächliche Ursache kann nur vor Ort gemessen und überprüft werden.

Dass es die Blades sind, würde ich erstmal an zweite Stelle verschieben, da es ja mit einer USV, welche die Spannungsschwankungen ausgleicht und ggf auch Oberwellen glättet (je nach Modell), keine "Abstürze" der Blades gab.
 
Moin,

wann wurde die Anlage denn das letzte mal geprüft?
Ortsfeste Anlagen sollten alle 4 Jahre geprüft werden, dabei werden für gewöhnlich auch die Verteilungen begutachtet, sodass Fehler, Überlastungen oder ähnliches auffallen sollten. Zumindest mit einem gescheiten Prüfunternehmen.

Ihr habt aber nicht nur ein Problem mit eurer elektrischen Infrastruktur. Ich würde euch empfehlen ein Systemhaus zur Unterstützung zu beauftragen. Es gehören überall entsprechende USV-Systeme davor, ggf. Überspannungsschutz Zusätzlich sollten die unbekannte Altinstallation mal komplett gecheckt werden, ich vermute da kommt noch viel mehr hoch. Klimatechnik gibt es ja sicherlich auch noch (die will auch regelmäßig, d.h. jährlich gewartet, werden)

Wir haben z.B. Steckerleisten von Aten die uns den Leistungsbedarf unserer gesamten Technik + Temperatur und Luftfeuchte ins Monitoring schießen. Gibts auch von anderen Herstellern.

Klingt für mich nach einem Paradebeispiel, dass man Infrastrukturthemen nicht auf die leichte Schulter nehmen sollte....passiert leider trotzdem sehr oft.

Grüße
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: omavoss, e_Lap und drago1401
Ohne hier jetzt unhöflich zu klingen aber was ist das für eine Bastelbude bei der du angestellt bist!?
Hier scheint einiges eher Laienhaft ausgeführt zu sein. Allein das an den "Renderfarmen" keine USV hängt sagt schon viel aus...
Netzspannung über einen oder mehrere Tage tracen, das sollte ein brauchbarer Elektriker können. Allgemein Versorgung der Server ist zu überprüfen, auch das kann ein guter Elektriker ausrechnen bzw gegenprüfen.
EMV kann auch ein Problem sein. Habt ihr eine Strecke der deutschen Bahn in der Nähe? Habe schon bei einem Kunden erlebt dass beim Vorbeifahren einer Lock das Netz angefangen hat zu schwanken.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: omavoss, S K Y N E T und nosti
Ich weiß nicht, wie sehr das mit euren Geräten ein Problem ist, aber eventuell ist bei euch der Leistungsfaktor zu schlecht. Auch Blindleistung belastet das Stromnetz. Ab einer bestimmten Menge muss man diese sogar mit bezahlen.

Wenn ein Blade bei dir zu Hause läuft, ist das zwar gut, aber die Info hilft ja nicht, wenn das Blade mit vielen anderen Blades zusammenarbeiten muss.

Beauftragt ein Systemhaus, wenn Inhouse die Kompetenz nicht vorhanden ist. Es geht ja letztlich auch um eine Menge Geld!
 
  • Gefällt mir
Reaktionen: omavoss
Ein Blindleistungsproblem würde ich im Moment erstmal weniger stark in Betracht ziehen. Seit gut 20 Jahren müssen Schaltnetzteil eine Blindleistungskompensation aufweisen und namenhafte Hersteller, gerade im Serverbereich sind da auch recht gut dabei. Solange alles ordnungsgemäß funktioniert sollte das kein Thema sein. Wir reden ja nicht über große Induktive oder Kapazitive Lasten, wie sie im Produktionsumfeld vorkommen...und auch da wird normalerweise an der Anlage kompensiert.

Grüße
 
  • Gefällt mir
Reaktionen: Skysnake
d3nso schrieb:
Allein das an den "Renderfarmen" keine USV hängt sagt schon viel aus...
Wobei gerade die Renderfarmen mMn nicht an einer USV hängen müssen, weil die Daten reproduzierbar sind und man damit die USV-Kosten enorm in die Höhe treiben würde.
d3nso schrieb:
Netzspannung über einen oder mehrere Tage tracen, das sollte ein brauchbarer Elektriker können.
Da gibts auch Geräte mit Netzwerkschnittstelle.
 
  • Gefällt mir
Reaktionen: jb_alvarado und Skysnake
An die Farm würde ich zumindest einen Überspannungsschutz Typ 2 hängen.
Ne USV schützt ja je nach Bauart vor wesentlich mehr als nur Stromausfällen.

Grüße
 
eine ordentliche USV (z.B. jede APC Smart mit Webinterface) sollte dir jegliche Schwankungen im Eingang anzeigen und protokollieren. Da braucht man keinen Elektriker für Stichprobentests kommen lassen.

Für solche Probleme gibt es gutes Zeug von der Firma Dehn.
Wir hatten beim vor-vorherigen Arbeitgeber immer bei Gewitter starke Schwankungen im Stromnetz und alle Server hatten dadurch Probleme, auch die, die mit einem Netzteil an der USV hingen.
Nach einem Upgrade der Elektrik mit ein bisschen Dehn Equipment lief das jahrelang einwandfrei. Kenne mich in deren Portfolio nicht aus, ich kenne nur einen Vertreter, der mich darauf aufmerksam gemacht hat und alles weitere hat der Elektriker gemacht.
 
Über wieviele Rechner reden wir eigentlich? 10, 100 oder 1.000?

Je nachdem kann es schon Probleme durch Schieflasten geben. Alternativ ist Kühlung auch immer mal ein gern genommenes Thema ab einer gewissen Packdichte passieren da "lustige" Dinge.

Ist aber im Prinzip erst mal alles egal, wegen der Geschichte mit der USV. Klar kann man mal Pech haben, aber normal sollten die Dinger nicht einfach in kurzer Zeit sterben. Das kann schon ein Hinweis darauf sein das ihr Spannungsschwankungen habt.

Überwacht ihr Fehlerströme? So was kann durchaus mal durch ein kaputtes NT passieren und dann für Ärger sorgen.

Ansonsten von wem sind denn die Server mit welcher Ausstattung? Wir hatten jetzt auch in den letzten Jahren die verrücktesten Bugs wo auch UserSpace Software Server gegrillt hat. Also sowohl das man sie stromlos machen musste als sogar physisch zerstört....

Das ganze Zeug ist heutzutage einfach viel unreifer wenn es auf den Markt kommt und mehr als Kante genäht als vor 10 Jahren.

Von wem habt ihr denn die Server bezogen und was sagen die zu euren Problemen als auch der USV Hersteller?
 
  • Gefällt mir
Reaktionen: omavoss
Zurück
Oben