產品列表

  • 技術文章 - Delta
  •  

    資料中心基礎設施工程的高效管理

    資料中心中的自動監控系統在市場上來說較為新穎,起初這類產品包含各種功能,像是保存設備記錄以及控制設備的移動和維護。 直至今天,它功能不僅是綁定資料庫來繪製圖表傳達機房訊息,現代系統更能解決資料中心操作上的各種任務。在此篇文章,我們將了解業界中常出現的問題,並嘗試尋找解決問題的方法。

     

    擴展多樣性功能

    資料中心的工程基礎設施可區分成兩個控制迴路,一個處理機櫃的冷卻和電力分配,另一個處理整體設施的電力系統、空調系統及各種輔助子系統(滅火,門禁控制等),通常這兩種迴路和它們的組件是彼此獨立且由不同部門的維運人員操作。

    企業通常不願意為基礎設施管理購買整體解決方案,尤其商用資料中心。而公司的管理階層常常想節省花費,同意選用零散的空調和UPS系統為規劃。然而,多個控制電路之間缺乏溝通橋樑,資料中心子系統的不同自動化水平以及多家不同的設備供應商,使所有設施部分的協調工作複雜化,導致在整合上遇到許多困難。

     

    控制模式

    在最壞的情況下,小型的資料中心子系統是手動控制的,並且使用Microsoft Excel來記錄設備的安裝和移動,通常這文書記錄自然是一團糟,因為使用電子表格保持正確的資料庫是一項非常有挑戰性的任務,當機櫃數量以十為單位進行測量時,這時會有手工核算的問題產生,而且此類的資料中心在發生故障時才會更換設備,但這會增加發生事故時的間接成本和停機時間。

    如果停機時間對資料中心非常關鍵,則應使用反應控制模式,這種模式可以監控故障排除程序,且持續有文書紀錄。但是,該流程需基於員工有足夠經驗以及他們對資料中心的有一定的了解,在發生事故的情況下,可以很快消除問題。如果沒有全面分析故障原因,在預防方面會有極大困難,而當只有幾位專家知道如何管理設施所有過程的情況下,假如一名專家離職,就會衍生新的問題。

    更先進的管理模型始終以服務為導向,它負責設施所有子系統的完整文書工作,且明確規定了更換和預防性設備維護的規則及程序,並對其安裝的移動進行了徹底的運算,同時提供營運報告關於工程系統參數、事故說明和人員事故的消除措施。

    以服務為導向的資料中心管理方式主要特色是具主動性,該模型不僅可以分析錯誤的原因,還可以在問題發生之前進行預測,建立快速恢復服務的解決方法。當然,如果不為所有資料中心子系統導入單一的自動化監視和調度系統,這種方法是不可行的。根據經驗顯示,因缺乏高技術的專家,往往錯誤都是屬於人為,但如果調度中心屬於是自動化的,且所有設施維護規則和規章都已制定,那大多數人員只需要基本知識即可。

     

    監控與調度

    大約十年前,將所有工程子系統結合至單一平台DCIM(資料中心基礎架構管理)解決方案。DCIM的第一個版本可以草擬方案或計劃,並維護文書工作,但現在的功能已有很大變化,現代的解決方案可做到與不同製造商設備中的內置監視工具進行相連,並連接其他感測器、控制器、訊號轉換器和數據收集系統,收集至機櫃級別的能耗,機櫃、冷卻系統和內部管道中的溫度和濕度,以及液體洩漏數據的信息,此為達成預期目的的最低要求。

    一旦安裝了DCIM,客戶可擁有一個整合的監控環境系統,處理包括所有關鍵子系統和IT設備的數據,主要任務是結合其中最大可用數據的流量,及時收集和處理數據,使機房人員可以全面了解資料中心所有子系統的功能狀態,包括即時的運算能力。這就是DCIM的另一個優點,可以減少人為因素對資料中心子系統性能的影響。

     

    選擇上的難題

    企業導入DCIM的時機可能不盡相同,但最好在設施的設計階段導入DCIM,此時還可選擇不同製造商的設備,整合成現有獨立子系統,在資料中心設計階段選擇解決方案不會引起任何問題,這通常由系統整合商完成,該系統整合商會幫助選擇必要的硬體和軟體。

    現有資料中心的情況比較複雜,現在需要召集一個工作小組,其中包括相關部門的代表,且需列出欲監控之基礎設施的所有參數和節點的列表,並按重要性從高到低的順序排列,並且審核基礎設施設備支援的協議和通信方式,再考慮要安裝哪些感應器和控制器。

    利用這些資訊,選擇了必買的軟體解決方案,再列出要擴充的設備去估算整體專案預算,將DCIM的導入完全外包是一個好主意,錯誤產生在設計階段的花費會比系統整合商的服務花費更多。最初DCIM系統是要本地導入的,但是現在許多開發者將其作為SaaS(軟體即服務)提供,這種方法可以大大減少支出。

     

    優化的立基點

    資料中心運營的主要支出是電力成本,IT設備和冷卻系統的運作消耗了大量電費,因此須先優化能耗,能耗取決於許多的外部和內部因素,例如,氣候和天氣條件(包括季節變化)會直接影響冷卻系統,其中DCIM還可以分析電信設備以及其他子系統上負載增減時的試算。無法手動去計算所有的因素,但可以利用DCIM系統做到運算和分析實際的累積出統計數據,從而找出基礎設施中的問題區域。

    資料中心最關鍵的指標之一是能源使用效率(PUE)係數,該係數顯示IT負載、冷卻和UPS運行花費了多少功率,配電系統花費多少能耗,PUE計算方式是將機房總用電量除以IT設備總用電量。起初,人們認為1.6到2.0的PUE係數是可以接受的,但是現在市場上追求更高效的資料中心,大家持續努力將PUE保持在 1.1到1.2的值之間。通常,機房能耗是在UPS的輸出、配電單位的輸出以及IT設備的實際使用情況下測量的。

    根據獲得的數據,可以準確地得出資料中心的能源效率,雖然PUE不能反映某些數據的細微差別,例如,無法試算伺服器的停機時間或確認有問題的熱點來源,但PUE還是非常重要。還有,將PUE降低到接近1時,通常會導致資料中心的可靠性降低,事故和設備使用壽命的降低會抵消節能效果。

    現代控制系統可以從伺服器、機櫃和配電設備收集能耗數據,甚至可以監視每個通訊點,可以以易於理解的直觀形式顯示關鍵資源消耗的統計信息,從而更容易找到能耗最高的區域來優化成本花費,還可以找出負載較低的時間段,以便在這些時間段內安排維護。能耗高峰分析可將能源儲備保持在10%-15%的範圍內,來取代手動控制的情況下的30%-40%,讓這也成為一筆可觀的成本節省。

    DCIM解決方案還可監視其他工程子系統,例如,DCIM可繪製氣流以識別空調和溫溼度控制系統的問題區域,這些區域的用電量在機房中僅次於IT設備用電量。在嚴重問題出現、預防並迅速消除其問題之前,不要忘記進行故障排除,這可以提高基礎架構的可靠性並降低成本。僅在小型伺服器機房中才適合用手動控制,但在有數十個甚至數百個機櫃的機房時,必須導入DCIM。

     

    產業的展望

    到目前為止,我們僅討論了基礎架構工程,因為IT基礎架構管理被認為是一項被區分開來的任務,通常跟DCIM有不同的系統。對於商業型的資料中心,IT設備的工作屬於客戶責任範圍,但是,虛擬化融合/超融合基礎架構的發展正在逐漸改變這種狀況。今時,開發者正在開發可即時監控單一實體設備上的虛擬伺服器解決方案,IT供應商正在其產品中嵌入大量感應器以監控能耗和溫度。

    虛擬化環境中的有效負載計劃必須涵蓋所有級別:操作系統和應用程序、伺服器,存儲系統、電信設備和通訊管道,當然還包括物理資源,例如:電源,散熱,加濕系統等。DCIM解決方案不僅是大型資料中心的其中一環,在不遠的未來,DCIM、虛擬化平台和IT基礎架構管理系統將會緊密整合。

     

    資料中心DCIM管理系統 - InfraSuite Manager

    top