當前位置:學者齋 >

計算機 >網絡技術 >

關於數據中心網絡故障維護策略

關於數據中心網絡故障維護策略

對於故障原因未能及時明確的,事後根據故障時收集的信息進行分析。數據中心技術人員的能力有限,可以召集行業內專家、設備廠商人員對故障信息進行分析,直到找到故障原因為止。出現網絡故障對數據中心是致命的打擊,下面是YJBYS小編收集關於數據中心網絡故障維護策略,希望對你有幫助!

關於數據中心網絡故障維護策略

數據中心是由大量電子設備搭建起來的複雜信息系統,這些電子設備出現各種各樣的故障是不可避免的,尤其是網絡設備,就算是谷歌、臉譜、亞馬遜等這些互聯網巨頭的數據中心也難免會發生不少故障。

一旦網絡設備出現故障,往往大面積的業務就會受到影響。一方面我們要增加網絡設計的健壯性,關鍵節點部署宂餘備份;另一方面要優化處理網絡故障的手段,當出現網絡故障時,如何快速恢復、並定位問題,消除隱患都需要諸多專業技術知識和豐富的網絡經驗,同時制定完善的故障處理流程,這樣能大大縮短故障恢復的時間,同時還能有效找到故障原因,避免類似問題下次出現。

數據中心網絡出了故障並不可怕,可怕的是故障後長時間無法恢復,可怕的是故障恢復後,依然不知道產生故障的原因,這樣數據中心網絡在不採取任何防護措施的情況下,繼續運行可能出現二次故障,所以制定詳細的網絡故障維護策略非常重要。一旦發生網絡故障,迅速找到故障原因,快速恢復業務。

俗話説“養兵千日,用兵一時”,平時不做足功課,出了故障必然處理起來毛手毛腳。在數據中心網絡日常管理中,要熟悉網絡運行情況,並定期、準確、迅速、簡單概括評估其運行狀況,建立完善的檢修報告制度。維護人員要多學習,多總結,對網絡運行的細節瞭如指掌。維護人員要對網絡設備的端口互連、組網配置、業務特點牢記,當出現故障時,腦海裏即刻就能浮現出網絡拓撲,故障的位置,這可為搶修故障爭取寶貴時間。

如果遇到故障時,還在確認網絡設備端口互連關係,説明對網絡認識還不夠深刻,這必然加長故障恢復的時間。同時,維護人員要對網絡設備進行週期性巡檢,並做詳細記錄,發現隱患及時修復,避免故障影響面擴大。維護人員需強化保養與監測,降低故障發生風險,確保網絡能夠正常運行。

也許數據中心日常網絡管理和維護工作開展都是非常規範的,但依然難免可能會發生網絡故障。出了故障,不要慌亂,要冷靜思考。仔細觀察故障現象,詳細瞭解故障相關情況,明確出錯信息細節,確定故障症狀。明確故障發生前是否有人操作了網絡(70%的網絡故障與人為操作有關)。如果沒有,再進一步明確網絡故障的位置,確認故障的設備或鏈路,這時可以採用PING、TRACERT命令或相關工具快速確認網絡故障位置。同時,迅速收集故障設備信息。

維護人員根據故障發生的位置、故障基本信息,對故障產生原因進行分析。若短時間內看不出原因,要啟動隔離故障預案。要再次確認故障信息是否收集完整,避免有遺漏,否則日後可能分析不出故障原因。啟動隔離故障預案,將故障隔離後,觀察業務是否逐漸恢復,直到業務徹底恢復後,再進行後續的問題分析。一旦預案失效,業務仍不見恢復,需要啟動緊急應急措施,比如將業務轉移到另外數據中心上,或者災備數據中心上,再次確認業務是否完全恢復。這些故障預案在平時的網絡維護中應該做一些故障演練、故障模擬測試,以免這些預案機制在真正故障來臨時失效。

對於故障原因未能及時明確的,事後根據故障時收集的信息進行分析。數據中心技術人員的能力有限,可以召集行業內專家、設備廠商人員對故障信息進行分析,直到找到故障原因為止。有些時候,為了快速恢復業務,收集的信息不完善,或者設備記錄信息不完整,往往很難找到故障原因,不可能在找到原因之前將業務割回。可以在現有的網絡中做一些模擬測試,找一找故障原因,還不行就得對可能故障的節點進行優化或者更換,然後召集各類專家保障,再擇機將業務割回,進行觀察。割回後一旦故障復現或者運行一段時間後再次出現,各路專家及時出手,排查故障原因。這個過程也許要經歷過數次,最終才會找到故障原因,數據中心不允許將隱患留在網絡中,不帶隱患運行。

網絡故障處理完後,要進行細緻總結。看現有網絡中哪些地方需要優化,維護人員哪些方面的技術要加強,避免相同的故障再次在網絡中出現。對網絡故障進行深刻總結,全方位進行巡檢,類似的隱患一律消除。這些工作做完後,要將故障排除過程文檔化,對所做的工作進行文字記錄。文檔是排錯寶貴經驗的'總結,是“經驗判斷和理論分析”這一過程中最重要的參考資料,比如要包括:故障現象描述及收集相關信息、故障發生原因解釋、本次排錯的心得體會、後續網絡優化工作、故障處理流程上是否存在瑕疵等,都要形成正式文檔後日後查閲。維護人員必須養成及時進行故障排除的文檔記錄和經驗總結習慣,一方面是網絡維護工作的基本要求,另一方面也是自身提高排錯技術的需要。同時,還要對故障處理過程中,暴露出工作上的疏漏及時補救,優化整個故障處理分析的過程。

在數據中心裏,網絡故障不可避免,通過以上的故障維護策略步驟,可以大大減少重複網絡故障的發生。但是網絡故障產生是受到很多因素影響的,而且故障類型較多,要徹底消除是非常困難的,這是那些網絡技術實力非常雄厚的互聯網巨頭數據中心依然故障不斷的原因。隨着數據中心網絡規模越來越大,新的網絡技術越來越複雜,給網絡故障排查製造了極大的障礙,這樣更需要對網絡故障的維護策略進行不斷地優化和調整,以便適應新的數據中心網絡環境。

  • 文章版權屬於文章作者所有,轉載請註明 https://xuezhezhai.com/zh-hk/jsj/wl/2xpoeq.html