Fachbeitrag

Technische Infrastruktur des Rechenzentrums effizient verwalten

Tools zur Automatisierung von Steuerungs- und Überwachungsaufgaben in Rechenzentren sind relativ neu auf dem Markt. Die ersten Produkte dieser Art boten verschiedene Funktionen, etwa zum Erfassen von Ausrüstung sowie zur Steuerung von deren Verschiebung und Wartung. Heute geht es nicht mehr bloß darum, wunderschöne Diagramme von Serverräumen mit Datenbankverknüpfungen zu erstellen. Moderne Systeme ermöglichen inzwischen die Bewältigung einer Vielzahl betrieblicher Rechenzentrumsaufgaben in Echtzeit. Dieser Artikel befasst sich mit den Problemen in dieser Branche und sucht nach Möglichkeiten zu deren Lösung.

Vielfalt skalieren

Die technische Infrastruktur eines Rechenzentrums lässt sich in zwei Steuerkreise unterteilen. Ein Bereich befasst sich mit der Kühlung und Stromverteilung auf Rack-Ebene. Der andere arbeitet auf Ebene des gesamten Gebäudes und befasst sich neben Stromversorgung und Klimatisierung mit verschiedenen zusätzlichen Subsystemen (wie Brandbekämpfung und Zutrittskontrolle). Häufig bestehen diese Steuerkreise und sogar ihre Komponenten voneinander unabhängig und werden von verschiedenen Betriebsteams verwaltet.

Nicht immer sind Unternehmen bereit, integrierte Lösungen für das Management der technischen Infrastruktur zu erwerben. In der Regel ist dies keine Option für kommerzielle Rechenzentren. Unternehmensführungen im Corporate-Segment müssen jedoch häufig Kosten einsparen und gehen deshalb den Kompromiss fragmentierter Systeme für Klimaanlagen und USV ein. Mangelnde Kommunikation zwischen Steuerkreisen, unterschiedliche Automatisierungsstufen der Rechenzentrums-Subsysteme und eine Vielzahl verschiedener Gerätehersteller erschweren die koordinierte Arbeit aller Gebäudeteile und stehen Optimierungen im Weg.

Steuerungsmodi

Im schlimmsten Fall werden Subsysteme im Rechenzentrum manuell gesteuert, und Installation und Transport von Geräten werden mit Microsoft Excel dokumentiert. Die Dokumentation gestaltet sich dann häufig chaotisch, da sich präzise Datenbanken nur äußerst schwer auf der Basis von Tabellen pflegen lassen. Wenn die Anzahl an Racks in Zehnern gemessen wird, sind Probleme bei der manuellen Abrechnung unvermeidlich. Der Austausch von Geräten in einem solchen Rechenzentrum erfolgt nur bei Ausfällen, was die Gemeinkosten und Ausfallzeiten bei Zwischenfällen erhöht.

Wenn Ausfallzeiten für Rechenzentrumsinhaber von entscheidender Bedeutung sind, wird ein reaktives Steuerungsmodell verwendet. In diesem Fall wird die Fehlerbehebung kontrolliert und Begleitpapiere werden gepflegt. Der Prozess hängt jedoch von der Erfahrung der Mitarbeiter und ihren Kenntnissen zu einem bestimmten Rechenzentrum ab. Bei einem Zwischenfall wird das Problem ausreichend schnell behoben. Jedoch bestehen ernsthafte Schwierigkeiten bei der Prävention, da keine Möglichkeiten für eine umfassende Ursachenanalyse von Störungen vorhanden sind. Wenn nur einige wenige Experten wissen, wie man mit allen Prozessen des Gebäudemanagements umgeht, und wenn beispielsweise ein Experte entlassen wird, entstehen neue Probleme.

Fortschrittlichere Managementmodelle sind stets serviceorientiert. Es wird davon ausgegangen, dass alle Teilsysteme eines Standorts mit einer vollständigen Dokumentation versehen sind. Darin werden Regeln und Verfahren für Austausch und vorbeugende Wartung von Geräten festgelegt. Zudem wird eine gründliche Protokollierung bezüglich Montage und Verschiebung geführt. Betriebliche Services erstellen Berichte zu verschiedensten Parametern, etwa technische Systeme, Zwischenfälle sowie Maßnahmen, die von Mitarbeitern zur Beseitigung derartiger Probleme ergriffen werden.

Das Hauptmerkmal des serviceorientierten Ansatzes für das Rechenzentrumsmanagement ist Proaktivität. Dieses Modell ermöglicht nicht nur die Analyse von Fehlerursachen, sondern auch die Vorhersage von Problemen, bevor diese auftreten. Es können Umgehungsmechanismen zur schnellen Wiederherstellung der Serviceverfügbarkeit eingerichtet werden. Natürlich erfordert die Einführung eines solchen Ansatzes ein zentrales, automatisiertes Überwachungs- und Dispatchingsystem für alle kritischen Subsysteme im Rechenzentrum. Häufig zeigt sich, dass Mitarbeiter durch das eigene Handeln Probleme schaffen. Meist besteht dauerhaft ein Mangel an hochqualifizierten Experten. Wenn jedoch das Dispatching-Center automatisiert ist und alle Regeln und Vorschriften für die Anlagenwartung formalisiert sind, reicht es aus, wenn die meisten Mitarbeiter über grundlegende Kenntnisse verfügen.

Überwachung und Dispatching

Vor etwa zehn Jahren erschienen DCIM-Lösungen (Data Center Infrastructure Management) auf dem Markt, die alle technischen Subsysteme in einer zentralen logischen Struktur vereinen. Die ersten Versionen von DCIM ermöglichten das Erstellen von Schemen und Plänen für Objekte sowie ein Dokumentationsmanagement. Der Funktionsumfang hat inzwischen jedoch einen erheblichen Wandel erfahren. Moderne Lösungen können mit Überwachungstools interagieren, die in die Hardware verschiedener Hersteller integriert sind, wodurch sich zusätzliche Sensoren, Controller, Signalwandler und Datenerfassungssysteme anbinden lassen. In den meisten Fällen werden umfassende Informationen auf allen Ebenen erfasst, einschließlich Energieverbrauch, Temperatur und Luftfeuchtigkeit in Racks sowie Daten zu Kühlsystemen, Lüftungsschächten und Flüssigkeitslecks. Dies sind die Mindestanforderungen für diesen Zweck.

Sobald DCIM implementiert wurde, erhält der Kunde eine integrierte Überwachungs- und Steuerungsumgebung, die in einigen Fällen alle kritischen Subsysteme und selbst IT-Geräte umfasst. Die Hauptaufgabe besteht darin, die Datenströme zu kombinieren, die aus einer maximalen Anzahl verfügbarer Quellen stammen. Die Informationen werden in Echtzeit gesammelt und verarbeitet, wodurch das Servicepersonal einen vollständigen Überblick über die Funktion aller Subsysteme des Rechenzentrums, und falls erforderlich, auch der Rechenleistung erhält. Hier sehen wir einen weiteren Vorteil von DCIM, denn die Auswirkungen menschlicher Faktoren auf die Leistung von Subsystemen im Rechenzentrum werden reduziert.

Zu viel Auswahl

Für die Einführung der Lösung bestehen verschiedene Szenarien. Idealerweise sollte DCIM jedoch in der Entwurfsphase des Standorts angesiedelt werden. Es bestehen auch Möglichkeiten für die Integration vorhandener eigenständiger Subsysteme in Geräte verschiedener Hersteller. Eine Lösung für die Entwurfsphase des Rechenzentrums auszuwählen verursacht keine Probleme. Dies wird in der Regel von einem Systemintegrator durchgeführt, der Sie bei der Auswahl der erforderlichen Hardware und Software unterstützt.

In einem vorhandenen Rechenzentrum gestaltet sich die Situation deutlich komplexer. In diesem Fall sollte eine Arbeitsgruppe mit Vertretern aller interessierten Abteilungen gebildet werden. Zudem muss eine Liste aller Parameter und Knoten der zu überwachenden Infrastruktur nach absteigender Priorität aufgestellt werden. Als Nächstes müssen alle von den Infrastrukturgeräten unterstützten Protokolle und Kommunikationsmittel geprüft werden. Außerdem sollte berücksichtigt werden, welche zusätzlichen Sensoren und Controller installiert werden müssen.

Anhand dieser Informationen können Sie die erforderlichen Software-Lösungen auswählen, zusätzliche Geräte erfassen und das Projektbudget berechnen. Die Einführung von DCIM lässt sich ideal vollständig in das vorhandene Objekt auslagern. Fehler in der Entwurfsphase sind teurer als die Services von Systemintegratoren. Anfänglich waren DCIM-Systeme lokal begrenzt. Inzwischen beginnen jedoch viele Entwickler, derartige Lösungen als Service (SaaS) anzubieten. Dieser Ansatz ermöglicht eine deutliche Senkung der Investitionskosten.

Möglichkeiten zur Optimierung

In der Struktur der Betriebskosten des Rechenzentrums bilden Stromkosten den Hauptbestandteil. Der Betrieb von IT-Anlagen und Kühlsystemen führt zu hohen Stromrechnungen. Daher wird der Optimierung des Energieverbrauchs eine hohe Priorität beigemessen. Diese hängt von einer Vielzahl externer und interner Faktoren ab. So wirken sich beispielsweise Klima- und Wetterbedingungen, einschließlich saisonaler Schwankungen, direkt auf die Kühlsysteme aus. Außerdem sollte die schwankende Auslastung von Computer- und Telekommunikationsgeräten neben einer Vielzahl anderer Feinheiten beachtet werden. Alle Faktoren manuell zu berücksichtigen, ist unmöglich. Mit einem DCIM-System können Sie jedoch reale Betriebsstatistiken erfassen und analysieren, um Problembereiche in der Infrastruktur der Einrichtung zu erkennen.

Eine der wichtigsten Kennzahlen für Rechenzentren ist der PUE-Koeffizient (Power Usage Effectiveness), der zeigt, wie viel Strom für den Betrieb der IT-Auslastung ausgegeben wird – und wie viel für Zusatzgeräte wie Kühlung und USV sowie für Verluste im Verteilungssystem. Dies wird berechnet, indem der Gesamtenergieverbrauch durch den IT-Geräteverbrauch geteilt wird. Bis vor Kurzem wurde ein PUE-Faktor von 1,6 bis 2,0 als akzeptabel angesehen. Der Markt erfordert jedoch effizientere Rechenzentren, und inzwischen werden teilweise Werte von 1,1 bis 1,2 eingefordert. In den meisten Fällen wird der Verbrauch am Ausgang der USV, am Ausgang der Stromverteilungseinheit und für den tatsächlichen Einsatz von IT-Geräten gemessen.

Anhand der erhaltenen Daten kann die Energieeffizienz des Rechenzentrums recht präzise bestimmt werden. Der PUE-Wert spiegelt jedoch nicht alle relevanten Feinheiten wider. Dieser Faktor ist zwar nach wie vor wichtig, ermöglicht jedoch nicht, beispielsweise die Ausfallzeiten von Servern zu berücksichtigen oder problematische Hotspots zu erkennen. Zudem geht die Verringerung des PUE-Werts auf nahezu 1 häufig mit einer Verringerung der Zuverlässigkeit des Rechenzentrums einher. Zwischenfälle und eine Verringerung der Lebensdauer von Geräten können die Auswirkungen von Energieeinsparungen zunichtemachen.

Moderne Steuerungssysteme erfassen Energieverbrauchsdaten von Servern, Racks und Verteilergeräten. Es ist sogar möglich, einzelne Steckdosen zu überwachen. Statistiken über den Verbrauch kritischer Ressourcen können in leicht verständlicher Form dargestellt werden. Dadurch lassen sich die energieintensivsten Bereiche leicht ausfindig machen, um die Kosten weiter zu optimieren. Darüber hinaus können Zeiträume mit geringerer Auslastung erkannt werden, um Wartungsfenster entsprechend zu planen. Die Verbrauchsspitzenanalyse ermöglicht Leistungsreserven im Bereich von 10 % bis 15 %, statt der für manuelle Steuerungen üblichen 30 % bis 40 %. Auch hierdurch können erhebliche Einsparungen erzielt werden.

Mit Lösungen der DCIM-Klasse können zudem weitere technische Subsysteme überwacht werden. So kann etwa der Luftstrom abgebildet werden, um problematische Bereiche der Klimaanlage und -automatik zu erkennen, die beim Stromverbrauch von Rechenzentren gleich nach der IT-Ausrüstung folgen. Auch zu beachten ist die Fehlerbehebung vor der Entstehung schwerwiegender Probleme sowie die Prävention und schnelle Beseitigung von Problemen, wodurch die Zuverlässigkeit der Infrastruktur erhöht und Kosten gesenkt werden können. Eine manuelle Steuerung eignet sich ausschließlich für kleine Serverräume. Wenn sich jedoch Dutzende oder gar Hunderte von Racks im Serverraum befinden, ist die Einführung von DCIM erforderlich.

Branchenausblick

Bisher wurde primär die technische Infrastruktur behandelt, da das Management der IT-Infrastruktur als separate Aufgabe betrachtet wird. Normalerweise wird dies mit Systemen durchgeführt, die nicht mit DCIM in Verbindung stehen. In kommerziellen Rechenzentren liegt die Performance von IT-Geräten im Verantwortungsbereich der Kunden. Diese Situation unterliegt jedoch einem allmählichen Wandel durch die Weiterentwicklung von Virtualisierung und konvergierten/hyperkonvergierten Architekturen. Entwickler erstellen heute Lösungen, die eine Echtzeitüberwachung des Status virtueller Server auf einzelnen physischen Geräten ermöglichen, und IT-Anbieter integrieren eine Vielzahl von Sensoren in ihre Produkte, um Stromverbrauch und Temperaturen zu überwachen.

Eine effektive Lastplanung in virtuellen Umgebungen muss alle Ebenen abdecken: Betriebssysteme und Anwendungen, Server, Speichersysteme, Telekommunikationsgeräte und Kommunikationskanäle sowie physische Ressourcen mitsamt Stromversorgung, Kühlung und Befeuchtung. DCIM-Lösungen sind in großen Unternehmensrechenzentren nicht mehr bloß ein abgeschlossenes System. Deren engmaschige Integration in Virtualisierungsplattformen und Managementsysteme der IT-Infrastruktur steht schon bald bevor.

InfraSuite Manager - Data Center Infrastructure Management (DCIM)

back

Weiterentwicklung der Rechenzentrumskühlung

Modularität als Anforderung für IKT-Infrastrukturentwicklungssysteme

Technische Infrastruktur des Rechenzentrums effizient verwalten

Vor- und Nachteile von Lithium-Ionen-Batterien in Rechenzentren

Schnelle Aktivierung von DCIM zur Optimierung der Abläufe in Ihrem Rechenzentrum

Vorgefertigte Rechenzentren als globaler Trend

Strategien für Stromversorgung und Kühlung von Rechenzentren bei wachsender Leistungsdichte von Racks

Mehr als PUE: Die Rolle von DCIM in modernen Rechenzentren

Die Rolle von DCIM in modernen Rechenzentren: DCIM der nächsten Generation

Die Rolle von DCIM in modernen Rechenzentren: Ein Überblick