浪潮M3服務器RAS設計之IMS內存檢測隔離技術

                  2018-01-25 09:15 來源:美通社 作者:Janet

                  浪潮天梭M13服務器是專為超大規模實時事務處理而設計的大型關鍵計算系統,面向總部級別的銀行存儲款、電信行業計費系統、跨國企業ERP等關鍵應用場景。M13支持處理器核心數量超過1000個,具有強大的在線事務處理能力,同時采用了復雜的高可用技術系統,滿足業務7*24小時穩定運行需求。

                  天梭M13的內存高可用挑戰

                  RAS特性(即服務器的可靠性Reliability、可用性Availability以及可服務性Serviceability)對于大型關鍵應用主機來說尤為關鍵,能夠讓主機容忍各類軟硬件故障,可以顯著延長系統平均無故障時間,保證客戶業務持續穩定運行,是保障系統高可用性的技術基礎。

                  M13的可用性設計覆蓋了系統的每個部分,極為復雜,本文只介紹一項內存可用性技術 -- IMS內存檢測隔離。

                  內存錯誤和故障是引發系統硬件故障的原因之一,一方面,從SDR到DDR,再到目前的DDR3,內存的容量和性能不斷提升,內存顆粒容量的增大、單元密度增加、生產工藝的復雜,客觀上增加了內存缺陷檢查和測試的難度;另一方面,天梭M13最大支持1536個DIMM插槽,內存容量高達48TB,使得內存發生錯誤和故障的概率顯著增加。

                  IMS -- Intelligent Memory Surveillance

                  目前,內存錯誤的診斷和處理技術相對成熟,主要有ECC、chipkill、SDDC等,這些技術能夠檢驗內存錯誤,進行相應處理,但是有一定局限性,例如ECC可以檢驗和糾正一個數據位錯誤,但無法糾正2個錯誤位同時發生,而且如果ECC錯誤頻繁發生會導致Multi-bit被標識為不可用,甚至觸發MRC內存管理機制,將整個Rank/DIMM做disable處理。頻繁的內存錯誤并不表示內存物理失效,也有可能是外部環境溫度過高、電壓波動等因素導致,這樣的處理會減少內存性能、浪費內存空間,從而降低系統性能。

                  IMS -- Intelligent Memory Surveillance,是一套完整的內存錯誤和故障校驗、診斷和處理方法,具備內存檢測、失效隔離和預警等完整的內存管理功能,解決了內存故障無法修復導致停機、故障難于定位、個別錯誤導致大規模內存浪費等內存錯誤和故障處理難題。

                  IMS系統概述

                  浪潮天梭M13高端服務器的IMS系統配置了高效的內存診斷工具,用戶可以自行對內存問題進行檢查。M13開機時,在BIOS啟動階段(進入操作系統前),用戶可進入Diagnostic模塊,在3種不同強度的測試模式 -- Quick、Standard和Extensive中進行選擇,對內存進行測試和檢驗。檢測完成后,對于關鍵區域或大塊面積的不可修復錯誤,IMS會給出警示信息,提示用戶需要更換內存,對于非關鍵區域、分散性的少量錯誤,IMS會將錯誤地址記錄并對故障單元進行隔離,機器之后的運行時不會再對這些錯誤地址進行訪問。

                  當系統啟動成功,進入OS后,IMS會實時進行內存的監測、保護和處理。首先IMS系統會實時統計內存ECC錯誤信息,并對錯誤地址以IMS自帶的多個測試算法進行強化測試,對錯誤進行有效性確認,同時預測相關可能出錯的地址。最后,IMS系統對確認錯誤或預測產生的不可糾錯的內存,應用 OS的隔離技術,在此部分內存區域空閑時予以隔離,離開應用內存空間。

                  IMS -- 內存錯誤減少95%以上

                  IMS系統能夠在天梭M13服務器運行過程中,有效減少失效內存進入系統的機會。開機前的可選Diagnostic功能類似工廠專用內存測試ATE,但又優于ATE,可以讓用戶方便的進行全面內存檢查。隨著服役時間的延長,內存的電氣性能會不斷衰減,從而產生內存失效隱患,Diagnostic功能讓用戶有效避免這一隱患。

                  在系統運行時,IMS可以將故障內存進行隔離,也很好的防止內存退化帶來的內存錯誤,提高系統可靠性。而且IMS對于內存錯誤的定位和處理更為精細和及時,某些本應作RMA處理的內存,可以在現場進行處理修復,大幅減少內存空間浪費行為。

                  在使用IMS后,ECC log報錯日志內容隨時間推移成收斂狀態,效果顯著,每小時ECC報錯數從400次逐步減少到不足10次。浪潮統計數據表明,IMS可以有效減少內存錯誤的發生,提高內存可用性。

                  從天梭K1到天梭M13,浪潮關鍵應用主機在系統性能、可用性等方面都有了顯著的提高。浪潮在RAS高可用等關鍵核心技術上的持續突破,有效提升了其關鍵應用主機系統的可靠性及產品品質,為金融、電信等關鍵行業的核心信息化應用提供了強有力的基礎設施保障。

                  浪潮 M3服務器 RAS設計 IMS

                  相關閱讀

                  暫無數據

                  一周熱門

                  国产亚洲精品成人AA片新蒲金| 亚洲欧洲精品无码AV| 亚洲精品国产精品乱码不99| 人人狠狠综合久久亚洲高清| 亚洲乱码国产乱码精华| 亚洲精品无码av中文字幕| 亚洲国产AV无码一区二区三区| 一本色道久久88亚洲精品综合| 亚洲午夜一区二区三区| 97久久国产亚洲精品超碰热| wwwxxx亚洲| 亚洲AV日韩综合一区尤物| 国产午夜亚洲精品| 亚洲一久久久久久久久| 亚洲精品一卡2卡3卡四卡乱码| 亚洲欧美日韩一区二区三区在线| 亚洲欧美日韩国产精品一区| 亚洲成a人无码亚洲成av无码 | 亚洲av无码专区国产乱码在线观看| 欧洲亚洲国产清在高| 亚洲成AV人片在线观看| 亚洲国产老鸭窝一区二区三区| 久久亚洲私人国产精品| 亚洲综合久久1区2区3区| 亚洲免费观看在线视频| 91在线亚洲综合在线| 亚洲日韩一区二区一无码| 国产亚洲一卡2卡3卡4卡新区| 国产亚洲精品仙踪林在线播放| 亚洲伊人成无码综合网| 亚洲人成伊人成综合网久久久| 久久亚洲免费视频| 亚洲国产精品综合福利专区| 2020国产精品亚洲综合网| 亚洲日韩国产欧美一区二区三区| 最新亚洲人成网站在线观看| 国产成人亚洲精品影院| 亚洲av无码一区二区三区网站| 亚洲精品第一国产综合精品| 亚洲高清一区二区三区| 国产成人亚洲综合在线|