d-on-d — Datacenter On Demand

…über ein IT-Referenz-Lab, IT-Training, Virtualisierung und mehr…

Klima Super-GAU im d-on-d, 4h offline

with 8 comments

Am 07.07.2011 hatten wir einen Super-GAU, den man sich in keinem Datacenter wünscht. Wir hatten einen Totalausfall der redundanten Klimaanlage.

Vorgeschichte:
Seit dem 16.06.2011 hatten wir wiederholt Ausfälle eines unserer IndoorChiller. Das war weiter nicht dramatisch, da wir ja eine redundante Auslegung haben. Ärgerlich war einfach, dass die Servicetechniker das nicht in den Griff bekamen und schon sechs Mal vorbeischauen mussten. Mal dies gemacht, mal das versucht, auch die Elektronik getauscht, nichts hat geholfen. Dazu bekam ich auch jedes Mal gleich eine Rechnung für die ‚erbrachte Dienstleistung‘. Ich bin ja wirklich geduldig, aber irgendwann musste ich sagen, dass es so nicht weitergehen kann. Also wurde der 07.07. abgemacht um das Problem definitiv zu fixen. Dazu käme DER Techniker vorbei, der diese Anlage in- und auswendig kenne.

Arbeiten bis zum GAU:
Drei Techniker kamen am frühen Nachmittag, wie abgemacht – perfekt – endlich besteht Hoffnung auf eine definitive Lösung.
Die NetApp Users Group hatte sich ebenfalls im d-on-d eingefunden und behandelte ihre Themen rund um NetApp Storage.

Am späteren Nachmittag bekam ich, auf einmal, diverse Warnmeldungen von unseren Überwachungssystemen, dass die Temperatur zu hoch sei. Als dann auch noch die Storage Systeme anfingen Alarme abzusetzen, sah man mich sehr schnell im Serverraum verschwinden. In diesem herrschte ziemliche Hektik und eine enorme Hitze. Alle Fenster waren geöffnen, was relativ wenig Entspannung brachte, da in einem HD-Datacenter sehr hohe Energiedichten vorhanden sind. Somit musste ich wohl oder übel beginnen Systeme, sehr schnell, ausser Betrieb zu setzen. Wohlgemerkt waren das Systeme, auf denen, zu der Zeit, weit über 150 Kunden arbeiteten, plus ein vielgelesenes Blog, wie virtualization.info, welches bei uns gehostet wird. Die Möglichkeit Kunden zu informieren gab es zu dem Zeitpunkt nicht, schnelles Handeln war angesagt. Ein anderer Handlungsstrang war unmöglich, da die Techniker es nicht schnell genug schafften die Klima-Aggregate wieder in Betrieb zu setzen.

Einzelne Systeme begannen schon sich selbst abzuschalten. Unter anderem auch unser NetApp Metro-Cluster. Das war für die anwesende NetApp Users Group natürlich ein grosser Spass. Zu sehen, wie das Servicepersonal hektisch hin und her rannte und die NetApp Systeme bis zu letzt ihren Dienst wie geplant durchführten. Das heisst: Zuerst Warnungen und Alarme absetzen, wenn niemand reagiert den Self-Shutdown des Systems zu vollziehen. Funktioniert hat das einwandfrei.

Was war geschehen?
Die Kältemaschine, welche seit drei Wochen mehrfach Probleme machte, war abgeschaltet, wie vorgesehen, damit die Service-Arbeiten durchgeführt werden konnten. Ein Techniker hat, aus welchen Gründen auch immer, die bisher ohne Probleme und einzig noch laufende Kältemaschine abgeschaltet. Als er diese wieder anschalten wollte, ist die Pumpe für die Wasserzufuhr zu den APC InRow-Chillern kapputt gegangen. Das Wasser sei aus dieser nur so herausgeschossen. Damit fiel die letzte Kältemaschine aus und es fand keine Kühlung mehr statt.

Meine Meinung dazu?:
Wie kann man nur bei einem doppelt ausgelegten System, in einem produktiven Datacenter, die einzig laufende Kältemaschine abschalten, wenn das andere System nicht einsatzbereit ist?
Wer von Geburt an keinen ‚Redundanz-Instinkt / Reflex‘ mitbringt, hat im Datacenter-Umfeld wahrlich ein massives Handicap! Das kann man sicher durch Ausbildung weitestgehend egalisieren. In dieser lernt man doch sehr früh, dass man bei einem 2-Node-Cluster, den verbliebenen Node nicht herunterfährt – ausser man will den Totalausfall des Systems provozieren!?!

Die Suche nach Erklärungen – Ausreden – Versprechungen:
Nachdem ich mit dem Techniker gesprochen hatte und gehört habe, was vorgefallen war, habe ich ihm meine Meinung zu seiner Arbeitsweise klipp und klar mitgeteilt. Er hat sich natürlich mit Händen und Füssen gewehrt. Das sei alles ein blöder Zufall, shit happens, so eine Pumpe gehe nicht einfach kapputt, das müsse weitergehende Ursachen haben. Eventuell seien die APC InRow-Chiller schuld. Vielleicht hätten sie nur Zweiweg- statt Dreiweg-Ventile. Oder die Ventile sind falsch eingebaut. Dann müsse die Pumpe gegen Widerstand arbeiten, was zum Ausfall der Pumpe führen könne.
Er werde morgen extra zum Lieferanten der Firma fahren und eine Ersatzpumpe besorgen.
Der Chef der Klima-Division sprach mir auf die Combox und entschuldigte sich für den Vorfall. Er werde mich Morgen nochmals kontaktieren.

Konfrontation:
APC wurde von mir natürlich mit der Aussage des Technikers gleich konfrontiert. Zuerst hatte ich Lindo Grossert, von APC, angerufen und ihm die Vermutung des Technikers mitgeteilt.  Wer Lindo kennt weiss was jetzt kommt: Verbinde mich mit dem Techniker! Dem wurde dann auch sogleich der Marsch geblasen, einfach solche Aussagen, wie Zweiwegventile, etc. in die Welt zu setzen.
Danach hat Lindo alle Hebel in Bewegung gesetzt um die Installation überprüfen zu lassen. Er hat das ganze intern eskaliert und APC gab mir Rückmeldung, dass sie mich am Morgen des kommenden Tages kontaktieren würden. Sie gaben mir noch die Notfallnummer durch, falls ich sie früher benötigen würde.

Der Tag danach:
APC hat sich sofort gemeldet und ist mit mir die Installation durchgegangen. D.h. die besagten Ventile wurden überprüft. Fazit: Alles korrekt. Ein APC Mitarbeiter kam noch vor Ort um zu schauen, was man noch machen könnte und wie man die Redundanz wiederherstellen könnte.
Der ganze Tag war eigentlich für die Vorbereitung zum V-Day und zum Schreiben von Offerten geplant. Nichts davon. Ich bekam natürlich, zu Recht, eine ganze Menge Kundenreklamationen rein. Diese, mit meinen Antworten / Entschuldigungen, habe ich immer gleich an den Chef des Verursachers geleitet. Spätetsens anhand von diesen Reklamationen und der Menge von betroffenen Kunden musste klar sein was für ein GAU das war. Leider musste ich dem Verursacher nachrennen. Was ist mit der Pumpe, wann kommt sie, ah sie wird doch nicht geholt, erst Mitte nächster Woche verfügbar, Versprechen von Rückrufen – niemand rief zurück, immer ich musste hinterherrennen, etc., etc., wirklich sehr ärgerlich.
Ich befand mich in der Situation, dass mein Datacenter nun auf der Kältemaschine lief, welche bisher immer so alle 2-3 Tage in die Knie gegangen war. Von den Klimaleuten kam keiner auf die Idee ein Ersatzaggregat zu liefern, damit eine Notfall-Redundanz existierte, sogar deswegen musste ich intervenieren.
Immerhin die Pumpe soll am Montag kommen und dann auch gleich verbaut werden.

Fazit:
1.
Ausreden, wie: Ich war es nicht, die Pumpe war’s – öh eigentlich war es die auch nicht, das müsste eher ein System, das nicht zu uns gehört, sein, sind nicht stimmig.
Es gibt nur eine Frage: Wer hat das noch einzig laufende System ausgeschaltet? Die Antwort dazu benennt den wirklich Schuldigen.

2.
Wenn 1. nicht begriffen: Leute im Datacenter-Umfeld, sollten, wenn sie den Redundanz-Instinkt nicht schon in die Wiege gelegt bekamen, diesbezüglich eine Ausbildung geniessen, damit die Knospe der Erkenntnis gekitzelt wird und ein bisschen dieses Redundanz-Reflexes aufblüht. Ansonsten kann ich nur raten diese für Kälte-Anlagen in Supermärkten einzusetzen. Dann gehen höchstens, nach etwas mehr Vorlauf wie im HD-Datacenter, ein paar Tiefkühlprodukte, wie Fischstäbchen und Pizzen drauf und das Gemüse wird schlapp. Der gewiefte Filialleiter kann sowas dann auch gleich als PR verwerten und den Kunden die Produkte kostenlos abgeben, bevor sie verdorben sind – er wird als origineller Manager von den Leuten gefeiert. Als Datacenter-Betreiber kann man solche Situationen leider nicht originell verwerten, man ist immer der Verlierer.

3.
Wenn man etwas ‚verbrochen‘ hat, sollte man sich auch proaktiv um die Sache kümmern und nicht den Kunden rumrennen und im Dunkeln sitzen lassen. Dazu gehört auch die Anlage soweit wiederherzustellen, damit man wenigstens einigermassen wieder in Richtung Redundanz kommt.

4.
Kann sich jeder selber denken.

d-on-d mit Notfall-Redundanz (80% der Systeme ausgeschaltet):

Written by USA

09/07/2011 um 15:31

Veröffentlicht in Datacenter On Demand

Tagged with

8 Antworten

Subscribe to comments with RSS.

  1. Unfassbar… die Klimatechniker waren aber nicht von APC oder einen Unternehmen, was regelmäßig in RZs unterwegs ist, oder? Wie sieht es mit Regressforderungen gegen den Klimaanlagenbauer aus?

    Patrick

    10/07/2011 at 12:39

  2. Man sieht hier wieder einmal, es gibt nichts was es nicht gibt.
    Nein die APC-Techniker haben rein gar nichts verbrochen. Die sind immer sofort zur Stelle, wenn ein Problem auftaucht. Sie machen wirklich ihren Job professionell und kümmern sich um die Kunden, auch nach dem Verkauf. Das ist zumindest meine Erfahrung.
    Im Moment bin ich dran mit dem Verursacher die weiteren Schritte zu klären. Ich blogge das dann wieder zu gegebener Zeit.

    USA

    10/07/2011 at 12:57

  3. Lieber Stefan,
    Solche Erfahrungen mit Klimatechnikern habe ich auch – nach dem der Chef der Klimafirma den Schaden gesehen hat meinte er lakonisch, er gehe jetzt in sein Büro und bereite den Konkurs ein…
    Selbstverständlich habe ich dann die Klimefirma gewechselt – aber keine Rede von einer Verbesserung.

    Wir sollten uns einmal zusammen eine neue Firma suchen.

    Beste Grüsse
    Rico

    Rico Künzler, SEC 1.01 AG

    10/07/2011 at 17:35

    • Hallo Rico

      In dem Fall hattet ihr auch einem einen Ausfall mit hohen Schäden? Hat er denn wirklich Konkurs angemeldet und macht heute unter neuem Namen weiter?

      USA

      11/07/2011 at 07:34

      • Hallo,

        einfach unglaublich die Geschichte… Aber offenbar nicht selten.
        Wir haben in unserem Serverraum 2 „normale“ Klimaanlagen, die durch eine Kältefirma völlig redundant und unabhänig von einander installiert worden sind. (2 Stromkreise, einer sogar am Notstrom)
        Also 2 unabhänige Geräte für einen Raum

        An einem warmen Sonntag stand mein Hadny aufgrund der Temperaturüberwachung nicht mehr still. Ich musste festtellen, dass unsere Kältefirma die völlig redundat ausgelegte Klimaversorgung, die Stromausfälle oder den Ausfall einer gesamten Klimaanlage überstehen soll, hinter einem einizigen FI Schutzschalter angeschlossen war… Dieser hatte aufgrund eines defekten Elektrogerätes ausgelöst…
        Redundanz ade., Totalausfall

        Mein Fazit:

        Kontrolle, Kontrolle, Kontrolle, verlässt man sich auf solche Firmen ist man verlassen…. Leider…

        Holger Nintemann

        11/07/2011 at 08:20

  4. Was ich immerhin sagen muss, die Techniker sind nun am wechseln der Pumpe und werden auch noch die Strömungen und Ventile ihrerseits überprüfen. Somit haben sie ihr Versprechen von letzter Woche eingehalten.

    USA

    11/07/2011 at 07:38

  5. Nach 20 Jahren Erfahrung als Klimatechniker mit Fachrichtung EDV Klima im Service und in der Errichtung von Rechenzentren, kann ich nur sagen: Selber schuld! Meine Erfahrungen in diesem Bereich sind leider geprägt, von Einkäufern die den Unterschied zwischen „billig“ und „preiswert“ nicht kennen und sich dann darüber wundern, dass Klimatechniker, die ansonsten Schweinehälften in Schlachthäusern kühlen und für entsprechend günstiges Geld zu haben sind und mit der komplexen Technologie und vor Allem mit den Sicherheitsbedürfnissen von modernen Rechenzentren nicht vertraut sind. Hinzu kommen unfähige Planer und Architekten, die von sich selber glauben, sie wären die größten, weil Sie große Häuser bauen können. Das hat nur leider nichts mit den Anforderungen eines Rechenzentrums zu tun. Es werden vermeintliche Redundanzen eingebaut, die sich im GAU Fall als unbrauchbare Theorie erweisen. Gern gesehen sind auch IT-ler die die Handwerker als vermeintlich „dumme Jungs“ abstempeln, in Wirklichkeit aber oftmals die einzig verantwortlichen für diese Situation sind. Klimakonzepte werden mehr oder weniger „nebenbei“ erstellt und das leider oftmals von IT-Administratoren ohne wirkliche Klimaerfahrung. Es werden Unsummen für die IT ausgegeben, aber beim Klima wird im Baumarkt eingekauft. Wer bei einem Schlachter die Brötchen kauft, muss sich nicht wundern, wenn sie nach Leder schmecken. Wendet Euch an wirkliche Fachleute und Hersteller, die in Rechenzentren keine „Split-Anlagen“ verbauen. Diese sind zwar günstig, aber nicht für den Anspruch eines Rechenzwntrums, sondern für den Humanbereich gedacht. Es gibt einige wenige vor allem deutsche Hersteller (wichtig bei der schnellen Ersatzteilversorgung) die über ein EIGENES Technikernetz verfügen und vor allem das „Know-how“ haben. In eine Rechenzentrum gehören ausschließlich Präzisionsklimageräte und eine echte Redundanz bedeutet ggf. auch beim Super-Gau auf „green-IT“ zu verzichten und mit herkömmlicher Klimatisierung zu arbeiten.

    Klimamarc

    14/07/2011 at 12:29

    • Durchaus… wer nix auszugeben bereit ist und Klimatisierung als Nebenschauplatz im Rechenzentrum sieht, der mag selber Schuld sein und hat auch nichts besseres verdient.
      In dem Projekt d-on-d wurde gemäss Angaben unserer Partner nur das Beste, durch die besten Leute geplant und verbaut, zumindest wurde mir so kommuniziert. Trotzdem kann es einem erwischen, was auch immer die Gründe sein mögen.

      USA

      18/07/2011 at 12:31


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: