優云云監控:先定一個運維小目標,比方監控它10000臺主機

0.jpg

“想做世界最好是對的,但是最好先定一個能達到的小目標,比方說我先掙它一個億?!?,王首富云淡風輕地給各行各業提供了一個很好的Roadmap,包括我們運維。的確,如今數據中心的規模增長速度也已像一匹脫韁的野馬,各地都頻頻建設起超大型數據中心。按工信部的定義,超大型是指規模大于等于一萬個標準機架的數據中心,考慮到虛擬化技術的使用,實際上需要運維的主機規模很容易超過十萬的級別。所以,首富說的目標離我們也不遠,也許很快就可以達到。

而如此大規模的數據,其運維的難度可想而知,我們來逐個分析應對看看:

挑戰一:如何把監控配置等運維工作降低到零?

通常情況下,每一個主機或虛擬機的點亮,運維人員都需要為新主機完成配套的運維工作,包括系統部署、IP地址分配、應用部署與監控配置等等。尤其在使用虛擬機技術的數據中心,據調查,目前虛擬機的平均生存時間只有15天,因此其配套的運維工作變得更加繁重。將這些例行的配套工作自動化,可以有效降低運維工作。

在這個問題域中,我們設想有這樣一種代理程序,它易于安裝、啟動后可自動采集本機信息上報、同時開始監控各項重要的指標。那么我們就很容易,將代理程序作為主機系統部署的一部份,同時預置到虛擬機鏡像中,那么每點亮一個主機,在監控中心就可以立即發現與監控它,這能有效消除監控配置運維工作。

這樣后續新增主機的流程如下,需要運維工作投入僅僅在開機部份,其余過程可全部自動化

1.jpg

挑戰二:如何設計監控數據傳輸網絡,低成本支持海量數據?

對于10萬主機的規模,以及目前數據中心秒級的監控需求,其監控數據顯然會成為一個大數據。一個主機上報監控數據產生了0.5KB/s的流量,那么10萬主機,每時每刻都產生50MB/s的總流量,這當然是無法接受的。

答案是引入采集數據傳輸中間層,通過中間層有以下優勢:

1.合并上報TCP連接,減輕監控服務端的連接壓力

2.集中數據壓縮上報,并減少傳遞的數據大小

2.jpg

挑戰三:如何對接各類系統,實現大規模監控數據集中化?

數據中心的監控運維不僅僅針對主機,還會有機房環境、業務應用、存儲系統等各類系統,這些系統可能也已有各自的監控工具,但運維需要避免工具的碎片化,為運維人員提供統一的監控平臺。因此監控系統應當非常容易擴展監控資源與監控指標,讓運維人員可以僅用一條命令,就可以提交監測資源與指標,以便隨時通過各類Shell擴展監控能力。

具體要求包括:

1.支持http或udp提交接口

2.簡潔的數據格式要求

3.不要求預先在平臺中定義資源或指標信息

這種方式,運維人員即可使用shell粘合curl命令,快速對接各類系統:

3.jpg

挑戰四:如何可視化上萬個主機的性能狀況?

由于超大型數據中心的主機資源已經達到萬級,因此傳統的一些TopN報表或多維度分析表格,其顯示的數據樣本少,缺少交互式的數據分析工具,無法直觀的表現數據中心的整體性能情況,也難以分析負荷的瓶頸。

應對這樣規模的資源展現,我們需要使用一些大數據的可視化技術:

1.用反應主機負荷的圖形元素,在進行宏觀的主機展現:

4.jpg 

2.通過機房、系統、使用部門等等不同的維度進行切換,洞悉負荷高壓區域:

5.jpg

總結

如今在監控領域,已經有很多傳統的監控工具,也包括各類開源的監控系統如Zabbix、Nagios等,但如果需要滿足萬級主機監控,還是有很多的運維平臺研發的工作需要落實。而優云Monitor,本身就已充分考慮大規模的監控體量,它的設計中包含了以下特性:

1.通過一鍵安裝快速實現大規模自動化部署,降低監控的運維附加工作量

2.通過代理級聯應對各類隔離網絡環境與多數據中心,并對網絡負荷零影響

3.通過OpenAPI快速實現監控平臺的集成

4.多視角切換觀察,隨意縱覽萬級主機數據中心

5.可隨數據中心規模增長而進一步水平擴展,隨時擴大監控規模

相信優云Monitor

作為面向混和云架構的下一代云監控產品,可以幫助大家早日實現運維小目標。

關于優云

優云(www.uyun.cn)是專業的全棧運維服務平臺,秉承devops的理念,從監控、到應用體驗,到自動化持續交付。優云的運維產品是目前行業內最全面的,能提供整套的運維解決方案,幫助用戶贏得業務的持續成功,是廣大用戶一直信賴的伙伴。

作者簡介:

蔣君偉

IT運維領域資深專家,優云軟件產品總監,擁有10年運維實戰經驗;

先后研發了網絡管理、系統管理、CMDB、ITSM等產品,并成功建設了多個全國性的網絡運維管理項目;

其主導研發的產品廣泛應用于海關、稅務、公安、社保、銀行、保險、能源等20多個行業。

活動期:現到2016年12月31日前免費使用,歡迎詳詢:www.uyun.cn

原創文章,作者:uyunops,如若轉載,請注明出處:http://www.www58058.com/49726

(0)
uyunopsuyunops
上一篇 2016-12-05 17:03
下一篇 2016-12-05 17:03

相關推薦

  • 一個刪除MySQL大表數據的shell腳本

    #!/bin/bash #為了刪除一些特別大的表 dbname=''  #庫名 tabname=''  #表名 step='10000' #刪除步長 sleeptime=1  #睡眠時間 start_index=30000001 &…

    系統運維 2015-07-16
  • 谷歌三大核心技術(三)Google BigTable中文版

    摘要 Bigtable是一個分布式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分布在數千臺普通服務器上的PB級的數據。Google的很多項目使用Bigtable存儲數據,包括Web索引、Google Earth、Google Finance。這些應用對Bigtable提出的要求差異非常大,無論是在數據量上(從URL到網頁到衛星圖像)還是在響應速度上…

    Linux干貨 2015-04-13
  • bind的安裝實現

    首先介紹一下我的測試環境:centos 7+入網(為了試行一下自己的安裝文檔,才裝的虛擬機) 1> yum install bind bind-chroot -y     因為剛剛安裝的虛擬機,這里我就不檢查了; 2>vim named.conf [root@localhost named]# cat /e…

    Linux干貨 2016-03-20
  • Javascript 裝載和執行

    一兩個月前在淘寶內網里看到一個優化Javascript代碼的競賽,發現有不少的人對Javascript的執行和裝載的基礎并不懂,所以,從那天起我就想寫一篇文章,但一直耽擱了。自上篇《瀏覽器渲染原理簡介》,正好也可以承前啟后。 首先,我想說一下Javascript的裝載和執行。通常來說,瀏覽器對于Javascript的運行有兩大特性:1)載入后馬上執行,2)執…

    Linux干貨 2016-07-10
  • 主從DNS 子域授權 基于域的轉發和DNS視圖的配置

    先把軟件包的安裝: yum install bind yum install bind-utils(DNS的查詢工具,dig nslookup host) 事先我已經安裝好了。 主從DNS的網絡拓撲圖: 主從DNS配置: 主從DNS服務器的同步可以有:完全區域同步(AXFR)和增量區域同步(IXFR),配置過程中要注意,增量備份時,需要調整區域文件中的SOA…

    Linux干貨 2015-08-24
  • redis/twemproxy 客戶端連接異常

    對于一個DBA,客戶端連接異常問題可以說是家常便飯的事情,處理多了都想吐。 root cause無疑發生在三個地方,先找自身的原因,依次排查下去: 1)服務器端db的負載,如果負載太高,創建socket太慢引起超時。另外服務器端socket的個數太多,也可以導致創建連接需要很長的時間或者創建連接不成功。 2)網絡是夠有抖動,包括lvs/twemproxy重啟…

    Linux干貨 2015-04-03
欧美性久久久久