郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
對于一款服務器產品而言,我們可以從三個角度去評估它——質量、功能和服務。
質量是產品可用的第一要素,這里主要是指硬件的故障率,這個數值應當低于2%,一些廠商的硬件質量甚至可以做到小于1%。不要小看這個數字的變化,對于海量模式的硬件平臺,基數越大差距效果就越明顯。假設服務器總量是三萬臺,多出一個1%就意味著平均每天會多觸發(fā)一次故障事件。即便是更換硬盤的維修,也會對生產系統的運行產生一定影響。故障率如果控制不住的話,那么SLA的承諾就是一紙空談。
同時質量也直指另外一個重要指標,那就是性能。在這里,我們把產品性能也納入到質量里面去。為什么這樣講呢?如果一個產品的性能很差,意味著它的可用性就很差,一個不可用的產品,從概念上講基本就等同于質量不合格。一個性能極差的產品基本上就是不可用的,對生產業(yè)務的正常運行是非常不利的。
功能是另外一個很重要的影響因素。如果說質量關系到業(yè)務的正常運行,那么功能就關系到業(yè)務的高效維護。一般所謂的功能主要是指服務器的帶外管理功能。因為在硬件配置方面,除了RAID卡和電源以外,能夠相互一較高下的地方并不太多。但是服務器的帶外管理功能確實可以有效地拉大不同產品之間的距離。
質量和功能是在我們的技術評估中是占有很大比重的,而服務部分會相對偏輕一些。服務好不如質量好,手冊好不如產品好。如果一款產品,質量可靠有保障,使用簡單不求人,那么誰還會需要售后服務和說明書呢?如果產品的質量跟不上去,功能又有缺陷,那么服務再好也是沒有意義的。相反的,如果產品功能強大且質量過關,我們反而很少會使用到售后服務。
在海量模式下的運維場景中,甲方都有自己專門的運維團隊。當觸發(fā)任何緊急事件時,第一時間都需要運維團隊自己解決。我們不可能像過去傳統的系統集成那樣,把所有工作交付給廠商來完成。這涉及到一個時間成本的問題。一個線上系統發(fā)生故障了,難道你要我打800開Case,再等著廠商派工程師出現場嗎?這顯然是不可能的。業(yè)務就算停止一分鐘的損失都難以估計,你根本就等不起。只有像硬件維修或是技術咨詢這類不緊急的問題,我們才會依靠廠商來支持。
另外,服務是一個長期積累的過程。一個廠商的服務好與壞,在短期內是很難做出評判的。對于那些以前根本就沒有使用過的產品,服務這一項也僅能通過測試階段的售前表現來看。這也是不能把服務占比過重的一個客觀因素。
帶外管理有多重要
做系統運維的同學會經常提到帶內管理與帶外管理這兩個名詞。所謂的“內”、“外”之分,就是指管理通訊鏈路和業(yè)務生產通訊鏈路之間的關系。如果我們使用業(yè)務所在的鏈路進行消息傳遞和管理,我們就稱之為帶內(In Band),反之就是我們所講的帶外(Out of Band)。
我們日常維護生產環(huán)境,主要是通過帶內網絡進行管理。所依靠的手段,無非就是RDP、VNC、SSH、TELNET這些方式。但是,這些服務都運行在操作系統上面,并且通過網絡遠程訪問,其中就存在很多不穩(wěn)定的因素。比如硬件故障,操作系統崩潰,或者是人為操作失誤導致系統無法訪問等等。由此看來,帶內管理這條通道是很脆弱的。我們需要使用另外一個備用的手段,來確保我們對設備和操作系統的控制權。
帶外管理是完全獨立于現有生產環(huán)境的,從硬件接口、網絡鏈路,再到存儲和操作系統都是單獨分離出來的。帶外管理系統存放在一個很小的控制芯片上面,里面是一個經過修剪的、只讀的最小系統環(huán)境,通過單獨的接口與網絡去訪問。所以它的可靠性比帶內管理網絡要高得多。只要控制芯片加電且?guī)獾木W絡正常,我們就可以始終把控制權牢牢地掌握在手中。
當帶內管理網絡崩潰時,我們依舊可以憑借帶外管理提供的虛擬控制臺,遠程登錄生產系統的本地console界面,這相當于在機房里面直接接上KVM(Keyboard-Video-Mouse)設備。是我們處理故障最有效的保障手段。除了斷后之外,帶外管理也扮演著開路先鋒的角色。在設備剛剛上架加電的時候,我們是沒有帶內環(huán)境的,系統的安裝部署,服務器的開關啟停都離不開帶外管理。
也許在一些人看來,帶外管理不過是提供了一個遠程的虛擬控制臺而已。但實際上,它所能完成的任務遠遠不止這些。優(yōu)秀的帶外管理可以說是提供了所有你在本地操作面前能做的一切功能,甚至還有額外的增值項目。我們可以借此獲取詳盡的硬件清單配置列表,收集監(jiān)控數據信息,設置BIOS參數,甚至操控硬件。
異構平臺融合能力
從管理角度講,單一使用一家廠商的產品,對于資產的統一管理與配置是有利的。如果出貨量大,雙方相互之間還可以簽署框架協議,進一步推動價格成本控制和產品定制化。這對于平臺初期的快速建設是有一定幫助的。不過,當平臺規(guī)模從溪流模式發(fā)展到江河模式或者海量模式的時候,一些政策法規(guī)不允許只此一家的這種采購形式的存在,同時單一化產品也存在品牌綁架的風險。這個時期,就會突然涌現出許多不同品牌,它們都有可能在未來同時入駐到我們的服務體系當中去。由于來自不同產品之間的差異會帶來多樣化管理的難題,這就對服務器的異構平臺融合能力提出了嚴苛的要求。我們不希望看到,因為產品差異化而增加運維的管理成本。因此,必須弱化這種差異效應,讓運維團隊的成員感受不到不同產品之間的切換與變化。
支持并使用標準的公有開放式協議是異構融合的關鍵。私有協議不管做的多好,對于一統天下是沒有任何幫助的。除非你沒有競爭對手,或者你的私有協議能成為公認的標準。
IPMI協議盡管發(fā)展使用了將近20年的時間,可以方便地為用戶提供電源控制、傳感器監(jiān)控等通用型功能,但是它已經是一個落后于時代的產物了。作為x86平臺的工程師,我們一直都很羨慕小型機上面有專門獲取硬件信息的命令。而IPMI對于這方面需求的發(fā)展一直是難有作為。事實上,一些廠商像Dell、聯想在IPMI上也有oem接口,但是IPMI所能作的工作實在是太有限了,我們需要一個新的方案來解決異構平臺上的管理難題。
WS-Management,全稱叫做Web Services-Management,是DMTF組織基于SOAP(Simple Object Access Protocal,簡單對象訪問協議)制定的一種開源標準。該標準致力于在不同的x86設備廠商當中,提供一種IT基礎架構信息訪問與修改的統一接口。這對于那些支持該標準的廠商來說,會給用戶有效地管理資產配置工作提供極大的幫助。例如,我們有很多來自不同廠商的服務器設備。如果它們都能夠很好地支持WS-Management標準的話,那么就可以通過wsmancli工具,統一采集或修改所有服務器的硬件配置信息,而不必因為私有化工具分治的問題而形成多頭管理的局面。像AMD、Dell、Intel、Microsoft這些知名廠商都是該項標準組的成員。
這里我們就目前已經實際應用了WS-Management協議的DELL服務器為例,如果我們需要獲取網卡的MAC地址的話,可以使用如下命令實現。

使用WS-Management,必須先在客戶端上面安裝名為wsmancli軟件包。DELL在這方面走得還是非?壳暗,官網上不但給出了wsman的使用實例,同時還在git上面提供了一整套范例腳本。具體內容請讀者自行參考如下鏈接。

3)范例腳本下載地址和說明:
q https://github.com/dell/recite
q http://en.community.dell.com/techcenter/systems-management/w/wiki/3757.recite-interactive-ws-man-ing-environment
q http://en.community.dell.com/techcenter/extras/m/white_papers/20066176
q http://en.community.dell.com/techcenter/extras/m/white_papers/20066181
除了WS-Management以外,類似的標準還有Redfish,最新版本是2.0。它是一個通過RESTful接口利用JSON數據來實現的集成解決方案。Redfish的是一個更加輕量級的協議。比起WS-Management來,它同樣借助了HTTP模式,但傳輸數據更少,協議層更加簡單,Redfish所能夠支持的成員也更多。國內一些廠家已經在推動Redfish項目的進程了。具體的詳細內容可以參考如下鏈接:http://www.dmtf.org/standards/wsman。
另外一點就是兼容性。兼容性的優(yōu)勢將使產品在未來異構融合的競爭中處于有利的位置。我們可以回顧一下歷史,看一看WinZip為什么會輸給了WinRAR。當年WinZip是壓縮軟件界的老大哥,而WinRAR只是初出茅廬的毛頭小子而已。不過,WinRAR在推廣自己壓縮率更高的rar格式的同時,也兼容了zip格式。而WinZip卻不愿意把rar格式納入到自己的帳下,也許WinZip覺得這樣做實在是丟不起那個人。這兩種策略最終形成了兩種完全不同的結果。盡管后來各式各樣的壓縮軟件如雨后春筍般的出現,但都無法撼動WinRAR霸主的地位。原因就在于WinRAR能夠謹記WinZip失敗的教訓,不斷地兼容后來者的各項功能,穩(wěn)固了自己的江山。
我們就拿虛擬控制臺舉例,絕大多數服務器的虛擬控制臺依舊是通過Java程序來實現的。而HP提供的C/S模式的工作效率顯然要比Java高很多,并為本地登錄提供了冗余手段。按理說,HP能做到這一步,在眾多廠商里面已經算是很領先的了。但是DELL的思維模式卻顯得更加前衛(wèi),它把VNC服務直接嵌入到帶外管理模塊中,在本地登錄的時候使用VNC Viewer就可以了,而不是像HP那樣要安裝一個私有化的客戶端。使用開放標準的VNC協議的優(yōu)勢就在于沒有開發(fā)成本,而且它的通用性和可行性都很強,在未來異構平臺融合的大背景下具有很大的競爭優(yōu)勢。在寫這本書的時候,我已經在和華為、聯想、浪潮的銷售與技術團隊的技術交流中,建議廠商嘗試在帶外管理中嵌入VNC服務。這也許將在未來形成一種趨勢,我個人希望借助宣講和推動,為業(yè)界產品的異構融合邁出堅實的第一步。
完善的信息數據展示
信息展示分為靜態(tài)和動態(tài)兩個部分,靜態(tài)信息是指硬件清單的配置信息,動態(tài)信息是指部件狀態(tài)的實時監(jiān)測數據。
硬件清單的配置信息用于資產管理和安裝部署之用,采購的機型不止一種,所以需要通過硬件清單列表的詳細內容對服務器進行辨識,同時也有助于我們檢查供貨設備硬件配置的準確性。硬件配置清單列表中應當盡可能地包括如表1所示的內容信息。