Menschliches Versagen ist tatsächlich noch immer der Hauptgrund für Ausfallzeiten in Rechenzentren und hat die Spitzenposition in dieser Skala auch in den letzten 3 Jahren nicht verlassen.
Ausfallzeiten kommen Unternehmen teuer zu stehen
Einige behaupten sogar, dass jede Ausfallzeit letztlich auf menschliches Versagen zurückzuführen ist. Das mag stimmen, zumindest wenn Sie als Argument anführen, dass fehlerhafte Server (die vielleicht 4 % aller Ausfallzeiten verursachen) ja schließlich von Menschen entwickelt und gebaut wurden.
Wenn Sie menschliches Versagen jedoch vielmehr als unnötige Fehler betrachten – versehentliches Ändern der Einstellungen für die Kühlung, Herausziehen des falschen Kabels oder Überlasten eines Trennschalters durch Anschließen zu vieler Geräte – wird sich Ihnen ein vollkommen anderes und realistischeres Bild darstellen.
Entfernen Sie den Faktor Mensch aus der Gleichung und Sie werden umgehend eine Verbesserung feststellen. Das mag vielleicht nicht immer zu 100% umsetzbar sein, mit den richtigen Tools können Ausfallzeiten jedoch signifikant reduziert werden.
Intelligente Stromverteilungseinheiten (PDUs) spielen dabei eine entscheidende Rolle. Die folgenden zwei Vorteile sind für den Nutzer entscheidend:
- Neustart aus der Ferne
Server und Speichersysteme hängen sich auf, weisen Fehlfunktionen auf, stürzen ab und hinken in der Ausführung ihrer Aufgaben generell hinterher. Durch die Verwendung einer intelligenten PDU können diese Systeme einfach per Fernzugriff aus- und wieder eingeschaltet werden, wodurch das Problem oftmals bereits behoben ist. Wenn Sie dann auch noch im betreffenden Rack einen Remote-Management-Switch installiert haben, können Sie bei Bedarf sogar noch tiefgreifendere Maßnahmen durchführen.
- Stromkapazität
Ein hoher Prozentsatz von Ausfällen in IT-Umgebungen wird durch Überlastung der Stromversorgung verursacht. Mithilfe einer intelligenten Messung des Stromverbrauchs an der Steckdose können Sie Schwellenwerte festlegen, bei deren Erreichen ein Alarm ausgelöst wird. So werden der Ausfall von Racks, ganzen Serverreihen oder schlimmere Auswirkungen durch einen sprunghaften Anstieg des Stromverbrauchs verhindert.