“想做世界最好是對的,但是最好先定一個能達到的小目標,比方說我先掙它一個億。”,王首富云淡風輕地給各行各業提供了一個很好的Roadmap,包括我們運維。的確,如今數據中心的規模增長速度也已像一匹脫韁的野馬,各地都頻頻建設起超大型數據中心。按工信部的定義,超大型是指規模大于等于一萬個標準機架的數據中心,考慮到虛擬化技術的使用,實際上需要運維的主機規模很容易超過十萬的級別。所以,首富說的目標離我們也不遠,也許很快就可以達到。
而如此大規模的數據,其運維的難度可想而知,我們來逐個分析應對看看:
挑戰一:如何把監控配置等運維工作降低到零?
通常情況下,每一個主機或虛擬機的點亮,運維人員都需要為新主機完成配套的運維工作,包括系統部署、IP地址分配、應用部署與監控配置等等。尤其在使用虛擬機技術的數據中心,據調查,目前虛擬機的平均生存時間只有15天,因此其配套的運維工作變得更加繁重。將這些例行的配套工作自動化,可以有效降低運維工作。
在這個問題域中,我們設想有這樣一種代理程序,它易于安裝、啟動后可自動采集本機信息上報、同時開始監控各項重要的指標。那么我們就很容易,將代理程序作為主機系統部署的一部份,同時預置到虛擬機鏡像中,那么每點亮一個主機,在監控中心就可以立即發現與監控它,這能有效消除監控配置運維工作。
這樣后續新增主機的流程如下,需要運維工作投入僅僅在開機部份,其余過程可全部自動化:
挑戰二:如何設計監控數據傳輸網絡,低成本支持海量數據?
對于10萬主機的規模,以及目前數據中心秒級的監控需求,其監控數據顯然會成為一個大數據。一個主機上報監控數據產生了0.5KB/s的流量,那么10萬主機,每時每刻都產生50MB/s的總流量,這當然是無法接受的。
答案是引入采集數據傳輸中間層,通過中間層有以下優勢:
1.合并上報TCP連接,減輕監控服務端的連接壓力
2.集中數據壓縮上報,并減少傳遞的數據大小
挑戰三:如何對接各類系統,實現大規模監控數據集中化?
數據中心的監控運維不僅僅針對主機,還會有機房環境、業務應用、存儲系統等各類系統,這些系統可能也已有各自的監控工具,但運維需要避免工具的碎片化,為運維人員提供統一的監控平臺。因此監控系統應當非常容易擴展監控資源與監控指標,讓運維人員可以僅用一條命令,就可以提交監測資源與指標,以便隨時通過各類Shell擴展監控能力。
具體要求包括:
1.支持http或udp提交接口
2.簡潔的數據格式要求
3.不要求預先在平臺中定義資源或指標信息
這種方式,運維人員即可使用shell粘合curl命令,快速對接各類系統:
挑戰四:如何可視化上萬個主機的性能狀況?
由于超大型數據中心的主機資源已經達到萬級,因此傳統的一些TopN報表或多維度分析表格,其顯示的數據樣本少,缺少交互式的數據分析工具,無法直觀的表現數據中心的整體性能情況,也難以分析負荷的瓶頸。
應對這樣規模的資源展現,我們需要使用一些大數據的可視化技術:
1.用反應主機負荷的圖形元素,在進行宏觀的主機展現:
2.通過機房、系統、使用部門等等不同的維度進行切換,洞悉負荷高壓區域:
總結
如今在監控領域,已經有很多傳統的監控工具,也包括各類開源的監控系統如Zabbix、Nagios等,但如果需要滿足萬級主機監控,還是有很多的運維平臺研發的工作需要落實。而優云Monitor,本身就已充分考慮大規模的監控體量,它的設計中包含了以下特性:
1.通過一鍵安裝快速實現大規模自動化部署,降低監控的運維附加工作量
2.通過代理級聯應對各類隔離網絡環境與多數據中心,并對網絡負荷零影響
3.通過OpenAPI快速實現監控平臺的集成
4.多視角切換觀察,隨意縱覽萬級主機數據中心
5.可隨數據中心規模增長而進一步水平擴展,隨時擴大監控規模
相信優云Monitor
作為面向混和云架構的下一代云監控產品,可以幫助大家早日實現運維小目標。
關于優云
優云(www.uyun.cn)是專業的全棧運維服務平臺,秉承devops的理念,從監控、到應用體驗,到自動化持續交付。優云的運維產品是目前行業內最全面的,能提供整套的運維解決方案,幫助用戶贏得業務的持續成功,是廣大用戶一直信賴的伙伴。
作者簡介:
蔣君偉
IT運維領域資深專家,優云軟件產品總監,擁有10年運維實戰經驗;
先后研發了網絡管理、系統管理、CMDB、ITSM等產品,并成功建設了多個全國性的網絡運維管理項目;
其主導研發的產品廣泛應用于海關、稅務、公安、社保、銀行、保險、能源等20多個行業。
活動期:現到2016年12月31日前免費使用,歡迎詳詢:www.uyun.cn
原創文章,作者:uyunops,如若轉載,請注明出處:http://www.www58058.com/49726