d-on-d — Datacenter On Demand

…über ein IT-Referenz-Lab, IT-Training, Virtualisierung und mehr…

Archive for Juli 2011

Heissgang zweckentfremdet

with 10 comments

Zur Abwechslung mal eine kleine Story für’s Wochenende, unter dem Motto, ‚Wie das Leben so spielt‘.

Ich wollte heute, kurz vor Ladenschluss, noch Akkus in einem Ladengeschäft für Elektronikzubehör kaufen.
Ein Blick gen Himmel zeigte die Möglichkeit eines Regenschauers auf. Ich habe gedacht naja, lange bin ich ja nicht weg und so kam es wie es kommen musste.
Nach 200m fielen die ersten Regentropfen. Das waren richtig kleine, fette Wassertropfen, richtiger wäre der Ausdruck kleine Wasserbomben.
So drehte ich um, damit ich schnell wieder unter einem Dach zu stehen käme. Aber schon nach 50 Metern setzte ein unglaublicher Platzregen ein. So einer, wo nicht einmal mehr normale Regenschirme helfen.
Binnen weiteren 50 Metern war ich so nass, wie wenn ich in einen See gesprungen wäre. Am Ende stand ich also klatschnass und triefend im d-on-d. Alles klebte an meinem Körper und fühlte sich ecklig kühl an.
Nun war da das Problem: Ich hatte keine Ersatzkleider. Wirklich die perfekte Situation!
Hmm… wie bekomme ich nur die Kleider wieder trocken? Nach ein paar Wicki-Nasenreibern und einem Blick auf den Heissgang unseres Hot Aisle Containment war klar was Hilfe versprach!

Die Lösung um nasse Kleider zu trocknen, Heissgang (oder Warmgang) zweckentfremdet:

Besonders vorteilhaft ist, wenn die Kleider hinter HP DL380G5 gehängt werden, da diese Server massiv Wärme ausblasen. Das Hemd war nach fünf Minuten einwandfrei trocken und fühlte sich an, wie wenn es aus dem Tumbler gekommen wäre.

Fazit: Ich bin wirklich froh, mich damals im Projekt für eine Heissgang-Lösung entschieden zu haben. Die hat sich in den verschiedensten Situationen als perfekt erwiesen.

Advertisements

Written by USA

29/07/2011 at 20:36

Preisänderungen für die VMware VCP4 und VCP5 Prüfungen

leave a comment »

Ich habe soeben erfahren, dass es Änderungen betreffend Prüfungsgebühren, für die Examen VMware VCP4 und VCP5 gibt.

– Für die Schweiz gehen die Preise herunter, von CHF 250 auf CHF 220.–.
– Für Deutschland und Österreich gehen die Preise hinauf, von € 160.– auf € 175.–.

Die Änderungen werden zum 29.08.2011 vollzogen. PEARSON VUE ist nach wie vor der Exam-Provider.

Wer eine Preiserhöhung abfangen möchte, kann das tun, indem er Exam-Voucher zum alten Preis kauft. Diese Voucher gelten sowohl für den VCP4, wie den kommenden VCP5 Prüfungen.

Written by USA

28/07/2011 at 09:13

Veröffentlicht in VMware, VMware Training

Tagged with ,

VMware neue Kurse und Zertifizierungspfade vSphere 5 und VCP5

leave a comment »

Nach der Ankündigung von vSphere 5 durch VMware, wurden uns Trainern auch die Details zu den Kursen mitgeteilt.

Die ersten Kurse gibt es ab:
– 25.08.2011, VMware vSphere 5: What’s New
– 12.09.2011, VMware vSphere 5: Install Configure Manage

Kurse für Produkte, wie Site Recovery Manager 5, vCloud Director 1.5, etc. wurden noch keine bekannt gegeben. Weder Daten, noch die zu erwartende Form.

Der Upgrade-Pfad zum VMware Certified Professional 5 (VCP5), ist vom Prinzip her gleich, wie es auch früher war. Diejenigen, welche einen gültigen VCP4 besitzen, können bis zum 29. Februar 2012, ohne einen vorgängigen Kursbesuch, direkt an die Prüfung gehen.  Nach diesem Datum muss der What’s New Kurs besucht werden.
Für alle die keinen gültigen VCP haben, die müssen einen anerkannten Kurs besuchen, d.h. für VCP5 den Install Configure Manage.

Anbei die Pfade als Grafik, alternativ kann auch das PDF heruntergeladen werden: VCP5_Data_Sheet

Fragen und Antworten zum VCP5 gibt es ebenfalls in einem PDF: VCP5_FAQs

Wer die Kurse bei einem Trainer vom Team d-on-d buchen möchte, kann dies über die Digicomp Academy tun: Link

Written by USA

18/07/2011 at 11:55

Veröffentlicht in Training, VMware, VMware Training

Tagged with , ,

d-on-d Trailer fertiggestellt

with one comment

Wir haben nun, nach ca. 7 Monaten, nachdem das Projekt gestartet wurde, endlich den Trailer, der als Film-Vorspann für unsere YouTube’s dient, bekommen. Nächstens werde ich Content in unseren Channel hochladen.

 

Written by USA

15/07/2011 at 16:10

Veröffentlicht in Datacenter On Demand

Tagged with

VMware vSphere 5.0 angekündigt

with 3 comments

Am 12.07.2011, 18:00, wurde über den Webcast ‚Raising the Bar‘, die neue VMware vSphere 5.0 Suite angekündigt. Das Produkt erhält diverse Verbesserungen in Software-Architektonischer, wie auch funktioneller Hinsicht. Einige der wichtigsten Neuerungen:

– HA (High Availability) wurde verbessert, AAM wird durch ein neues Modul FDM ersetzt
– Das Prinzip der 5 Primaries und Rest Secondaries in einem Cluster wird durch Master / Slave ersetzt
– HA für VMs wurde in den VPXA Agent integriert
– DRS ist nun auch für Storage möglich
– vCenter gibt es als Linux-Appliance
– ESXi kann mit dem Image Builder / Auto Deploy aus dem Netz gestartet werden, Konfiguration via powerCLI
– es gibt einen vSphere Web Client
– Software iSCSI neu gelöst, mit VMkernel-Bindung
– Software FCoE vorhanden
– Bessere und tiefere Storage-Integration mittels Integration von Storage Providers
– Storage Profile für VMs
– VMFS Version 5 mit GPT, welches die 2TB Diskgrösse auf 64TB ausdehnt
– Neue VM-Version 8, mit bis zu 32 CPUs und 1TB RAM
– VSA Virtual Storage Appliance, damit Features wie HA und vMotion auch mit lokalem Storage möglich wird
– etc.

Am morgigen V-Day 2011, bei der Digicomp Academy AG, werde ich vSphere 5 vorführen, zumindes was im Rahmen von 45 Minuten Platz hat. Es hat noch freie Plätze, für diejenigen die dabei sein möchten: Anmeldung hier.

Kurse wird es vorerst zwei für vSphere 5 geben. Den ‚VMware vSphere 5 Install Configure Manage‚ und ‚What’s New VMware vSphere 5‚. Bei Digicomp Academy können diese schon gebucht werden.

Written by USA

13/07/2011 at 08:38

Veröffentlicht in VMware

Tagged with

Klima wiederhergestellt

leave a comment »

Die Klimatechniker haben die neue Pumpe nun verbaut. Alles ist diesbezüglich perfekt verlaufen. Die Notfallaggregate bleiben im Moment aber noch im Hause, damit reagiert werden kann, falls es wider erwarten Probleme geben sollte. In den nächsten Tagen wird die Pumpe der anderen Kältemaschine ebenfalls ausgetauscht, plus das Zusammenspiel der Kältemaschinen mit den APC InRowChillern getestet. Dafür müssen noch Messgeräte aufgefahren werden, um die Strömung in den Leitungen messen zu können.

Die nächsten Tage wird der ganze Vorfall noch weiter untersucht und durch Log-Analysen dokumentiert. Die Überwachungskameras und Monitoring-Systeme haben eine Menge an Daten generiert, die zur Auswertung des Vorfalls herangezogen werden können.

Written by USA

11/07/2011 at 14:06

Veröffentlicht in Datacenter On Demand

Tagged with

Klima Super-GAU im d-on-d, 4h offline

with 8 comments

Am 07.07.2011 hatten wir einen Super-GAU, den man sich in keinem Datacenter wünscht. Wir hatten einen Totalausfall der redundanten Klimaanlage.

Vorgeschichte:
Seit dem 16.06.2011 hatten wir wiederholt Ausfälle eines unserer IndoorChiller. Das war weiter nicht dramatisch, da wir ja eine redundante Auslegung haben. Ärgerlich war einfach, dass die Servicetechniker das nicht in den Griff bekamen und schon sechs Mal vorbeischauen mussten. Mal dies gemacht, mal das versucht, auch die Elektronik getauscht, nichts hat geholfen. Dazu bekam ich auch jedes Mal gleich eine Rechnung für die ‚erbrachte Dienstleistung‘. Ich bin ja wirklich geduldig, aber irgendwann musste ich sagen, dass es so nicht weitergehen kann. Also wurde der 07.07. abgemacht um das Problem definitiv zu fixen. Dazu käme DER Techniker vorbei, der diese Anlage in- und auswendig kenne.

Arbeiten bis zum GAU:
Drei Techniker kamen am frühen Nachmittag, wie abgemacht – perfekt – endlich besteht Hoffnung auf eine definitive Lösung.
Die NetApp Users Group hatte sich ebenfalls im d-on-d eingefunden und behandelte ihre Themen rund um NetApp Storage.

Am späteren Nachmittag bekam ich, auf einmal, diverse Warnmeldungen von unseren Überwachungssystemen, dass die Temperatur zu hoch sei. Als dann auch noch die Storage Systeme anfingen Alarme abzusetzen, sah man mich sehr schnell im Serverraum verschwinden. In diesem herrschte ziemliche Hektik und eine enorme Hitze. Alle Fenster waren geöffnen, was relativ wenig Entspannung brachte, da in einem HD-Datacenter sehr hohe Energiedichten vorhanden sind. Somit musste ich wohl oder übel beginnen Systeme, sehr schnell, ausser Betrieb zu setzen. Wohlgemerkt waren das Systeme, auf denen, zu der Zeit, weit über 150 Kunden arbeiteten, plus ein vielgelesenes Blog, wie virtualization.info, welches bei uns gehostet wird. Die Möglichkeit Kunden zu informieren gab es zu dem Zeitpunkt nicht, schnelles Handeln war angesagt. Ein anderer Handlungsstrang war unmöglich, da die Techniker es nicht schnell genug schafften die Klima-Aggregate wieder in Betrieb zu setzen.

Einzelne Systeme begannen schon sich selbst abzuschalten. Unter anderem auch unser NetApp Metro-Cluster. Das war für die anwesende NetApp Users Group natürlich ein grosser Spass. Zu sehen, wie das Servicepersonal hektisch hin und her rannte und die NetApp Systeme bis zu letzt ihren Dienst wie geplant durchführten. Das heisst: Zuerst Warnungen und Alarme absetzen, wenn niemand reagiert den Self-Shutdown des Systems zu vollziehen. Funktioniert hat das einwandfrei.

Was war geschehen?
Die Kältemaschine, welche seit drei Wochen mehrfach Probleme machte, war abgeschaltet, wie vorgesehen, damit die Service-Arbeiten durchgeführt werden konnten. Ein Techniker hat, aus welchen Gründen auch immer, die bisher ohne Probleme und einzig noch laufende Kältemaschine abgeschaltet. Als er diese wieder anschalten wollte, ist die Pumpe für die Wasserzufuhr zu den APC InRow-Chillern kapputt gegangen. Das Wasser sei aus dieser nur so herausgeschossen. Damit fiel die letzte Kältemaschine aus und es fand keine Kühlung mehr statt.

Meine Meinung dazu?:
Wie kann man nur bei einem doppelt ausgelegten System, in einem produktiven Datacenter, die einzig laufende Kältemaschine abschalten, wenn das andere System nicht einsatzbereit ist?
Wer von Geburt an keinen ‚Redundanz-Instinkt / Reflex‘ mitbringt, hat im Datacenter-Umfeld wahrlich ein massives Handicap! Das kann man sicher durch Ausbildung weitestgehend egalisieren. In dieser lernt man doch sehr früh, dass man bei einem 2-Node-Cluster, den verbliebenen Node nicht herunterfährt – ausser man will den Totalausfall des Systems provozieren!?!

Die Suche nach Erklärungen – Ausreden – Versprechungen:
Nachdem ich mit dem Techniker gesprochen hatte und gehört habe, was vorgefallen war, habe ich ihm meine Meinung zu seiner Arbeitsweise klipp und klar mitgeteilt. Er hat sich natürlich mit Händen und Füssen gewehrt. Das sei alles ein blöder Zufall, shit happens, so eine Pumpe gehe nicht einfach kapputt, das müsse weitergehende Ursachen haben. Eventuell seien die APC InRow-Chiller schuld. Vielleicht hätten sie nur Zweiweg- statt Dreiweg-Ventile. Oder die Ventile sind falsch eingebaut. Dann müsse die Pumpe gegen Widerstand arbeiten, was zum Ausfall der Pumpe führen könne.
Er werde morgen extra zum Lieferanten der Firma fahren und eine Ersatzpumpe besorgen.
Der Chef der Klima-Division sprach mir auf die Combox und entschuldigte sich für den Vorfall. Er werde mich Morgen nochmals kontaktieren.

Konfrontation:
APC wurde von mir natürlich mit der Aussage des Technikers gleich konfrontiert. Zuerst hatte ich Lindo Grossert, von APC, angerufen und ihm die Vermutung des Technikers mitgeteilt.  Wer Lindo kennt weiss was jetzt kommt: Verbinde mich mit dem Techniker! Dem wurde dann auch sogleich der Marsch geblasen, einfach solche Aussagen, wie Zweiwegventile, etc. in die Welt zu setzen.
Danach hat Lindo alle Hebel in Bewegung gesetzt um die Installation überprüfen zu lassen. Er hat das ganze intern eskaliert und APC gab mir Rückmeldung, dass sie mich am Morgen des kommenden Tages kontaktieren würden. Sie gaben mir noch die Notfallnummer durch, falls ich sie früher benötigen würde.

Der Tag danach:
APC hat sich sofort gemeldet und ist mit mir die Installation durchgegangen. D.h. die besagten Ventile wurden überprüft. Fazit: Alles korrekt. Ein APC Mitarbeiter kam noch vor Ort um zu schauen, was man noch machen könnte und wie man die Redundanz wiederherstellen könnte.
Der ganze Tag war eigentlich für die Vorbereitung zum V-Day und zum Schreiben von Offerten geplant. Nichts davon. Ich bekam natürlich, zu Recht, eine ganze Menge Kundenreklamationen rein. Diese, mit meinen Antworten / Entschuldigungen, habe ich immer gleich an den Chef des Verursachers geleitet. Spätetsens anhand von diesen Reklamationen und der Menge von betroffenen Kunden musste klar sein was für ein GAU das war. Leider musste ich dem Verursacher nachrennen. Was ist mit der Pumpe, wann kommt sie, ah sie wird doch nicht geholt, erst Mitte nächster Woche verfügbar, Versprechen von Rückrufen – niemand rief zurück, immer ich musste hinterherrennen, etc., etc., wirklich sehr ärgerlich.
Ich befand mich in der Situation, dass mein Datacenter nun auf der Kältemaschine lief, welche bisher immer so alle 2-3 Tage in die Knie gegangen war. Von den Klimaleuten kam keiner auf die Idee ein Ersatzaggregat zu liefern, damit eine Notfall-Redundanz existierte, sogar deswegen musste ich intervenieren.
Immerhin die Pumpe soll am Montag kommen und dann auch gleich verbaut werden.

Fazit:
1.
Ausreden, wie: Ich war es nicht, die Pumpe war’s – öh eigentlich war es die auch nicht, das müsste eher ein System, das nicht zu uns gehört, sein, sind nicht stimmig.
Es gibt nur eine Frage: Wer hat das noch einzig laufende System ausgeschaltet? Die Antwort dazu benennt den wirklich Schuldigen.

2.
Wenn 1. nicht begriffen: Leute im Datacenter-Umfeld, sollten, wenn sie den Redundanz-Instinkt nicht schon in die Wiege gelegt bekamen, diesbezüglich eine Ausbildung geniessen, damit die Knospe der Erkenntnis gekitzelt wird und ein bisschen dieses Redundanz-Reflexes aufblüht. Ansonsten kann ich nur raten diese für Kälte-Anlagen in Supermärkten einzusetzen. Dann gehen höchstens, nach etwas mehr Vorlauf wie im HD-Datacenter, ein paar Tiefkühlprodukte, wie Fischstäbchen und Pizzen drauf und das Gemüse wird schlapp. Der gewiefte Filialleiter kann sowas dann auch gleich als PR verwerten und den Kunden die Produkte kostenlos abgeben, bevor sie verdorben sind – er wird als origineller Manager von den Leuten gefeiert. Als Datacenter-Betreiber kann man solche Situationen leider nicht originell verwerten, man ist immer der Verlierer.

3.
Wenn man etwas ‚verbrochen‘ hat, sollte man sich auch proaktiv um die Sache kümmern und nicht den Kunden rumrennen und im Dunkeln sitzen lassen. Dazu gehört auch die Anlage soweit wiederherzustellen, damit man wenigstens einigermassen wieder in Richtung Redundanz kommt.

4.
Kann sich jeder selber denken.

d-on-d mit Notfall-Redundanz (80% der Systeme ausgeschaltet):

Written by USA

09/07/2011 at 15:31

Veröffentlicht in Datacenter On Demand

Tagged with