網站首頁 個人文檔 個人總結 工作總結 述職報告 心得體會 演講稿 講話致辭 實用文 教學資源 企業文化 公文 論文

機房基礎設施故障(事故)上報處置流程

欄目: 企業管理範文 / 發佈於: / 人氣:2.71W

一、目標

機房基礎設施故障(事故)上報處置流程

加強和規範化中心機房基礎設施故障(事故)的報告和處置流程,提高運維保障效率,保證故障(事故)的快速反應並及時修復、恢復,使損失降低到最低。

二、範圍

中心機房,共計3個機房區域。

三、定義

3.1一級故障:

故障影響範圍小,不會對業務系統造成中斷影響,並且不會對其它系統使用造成影響。

3.2二級故障:

關鍵系統單個設備或獨立系統故障,造成單個或局部業務系統中斷,不會造成重大業務系統運行中斷,不會造成關鍵系統運行中斷。

3.3三級故障:

外部出現供水、供電、網絡系統等中斷,關鍵性系統造成大面積中斷。涉及到外協單位修復,並且無法在短時間(2小時)內恢復,可能造成重大損失。

四、故障報告原則

先搶修,同報告;先核心,後邊緣;先始端,後末端,分故障等級進行處理。

五、故障(事故)類型

5.1一級故障

單台的機櫃PDU斷電、單台UPS及空調關鍵設備報警、機房温度上升到30℃以上、空調漏水影響到其他區域等。

5.2二級故障

單台UPS電源故障停機、單台空調機組故障停機、環控系統無法檢測數據、機房温度超過35℃等。

5.3三級故障

UPS前端供電中斷、空調配電櫃前端供電中斷、空調冷凍水供水中斷(失壓)、機房温度超過40℃、網絡中斷等。

六、故障報告流程

6.1當發現一級故障的情況下,當班運維人員首先進行故障確認,確認故障後進行一般性修復,無法修復的設備及時通報運維管理負責人以及數據中心當日的值班民警,運維負責人通知相應的技術工程師到場維修。事故恢復後形成事故總結報告。

6.2當發現二級故障的情況下,當班運維人員首先通知運維負責人以及數據中心當日值班民警,值班民警及運維負責人及時趕到現場,同時判斷故障產生的原因。值班民警、運維負責人和相應專業技術工程師協調溝通相關部門,相關單位派維修工程師進駐現場解決,短時間(1小時)無法解決的通知項目經理,值班民警及時通知數據中心主管領導。事故恢復後形成事故總結報告。

6.3當發現三級故障情況下,當班運維人員首先通知運維負責人、項目經理以及值班民警並告知物業管理部門相關人員。值班民警、項目經理及運維負責人及時趕到現場,判斷故障產生原因上報公司上級領導,值班民警上報主管領導和數據中心主要領導。由相應的數據中心領導、項目經理及物業部領導聯繫外協單位進行解決。事故恢復後形成事故總結報告。

七、故障處置方法

7.1一級故障的情況下,現場運維人員主動解決故障,運維負責人及時聯繫專業工程師到場解決故障。值班民警現場關注解決故障進程,並且配合解決外部單位協調工作。

7.2二級故障情況下,項目經理到場主持工作,聯繫專業工程師以及維修工程師及時到場解決故障。值班民警現場關注解決故障進程,並配合解決外部單位協調工作,同時通知上級主管領導,主管領導到場關注故障維修工作進程。

7.3三級故障情況下,項目經理到場主持工作,並上報公司領導,聯繫專業工程師及維修工程師及時到場解決故障。值班民警到場關注解決故障進程,並配合解決外部單位協調工作。值班民警及數據中心主要領導和主管領導,以及公司領導到場關注故障維修進程。同時數據中心主管領導通知各個使用單位,啟動機房內各業務系統應急預案,同時項目經理安排專業工程師對UPS間、機房內設備等進行應急操作。