前言:
平安城市已經是一個關系你我他的民生工程,但由于本身系統的復雜性,給運維工作帶來了極大的挑戰。如何保障攝像頭在線率?如何在系統中找到視頻系統故障的問題所在?在我們某一次項目經歷中,優云APM在發現問題,定位故障等方面,起了很大作用,幫助我們順利的定位到了系統的故障所在。
平安城市是一個特大型、綜合性非常強的管理系統,不僅需要滿足治安管理、城市管理、交通管理、應急指揮等需求,而且還要兼顧災難事故預警、安全生產監控等方面對圖像監控的需求,同時還要考慮報警、門禁等配套系統的集成以及與廣播系統的聯動。
處于平安城市系統核心地位的視頻監控系統,架構復雜。組成系統有成千上萬的高清攝像頭、數以千計視頻系統、數以百計的卡口系統、以及背后復雜的存儲和管理系統;同時橫跨多種網絡,包括4G,以太網,光纖網。攝像頭在線率,隨時隨地迅速調取視頻,就是整個視頻系統成效的關鍵指標。
最近接到客戶反饋,視頻網看起來挺正常,監控看到攝像頭在線率也挺好,各個市級子系統檢測結果都挺正常,但就是打開視頻很慢。接到情況,優云馬上組織了技術人員前往。
>>>>業務請求跟蹤,什么慢?
在初步了解后,我們對視頻應用平臺整體結構進行了梳理,整個應用平臺分成兩個層次,省級和各個市級,多達十幾個子系統,這里我們介紹一下主要的架構,并且選定關鍵路徑偵聽鏡像。
通過安裝部署優云APM,跟蹤觀察省級SIP信令,橫向綜合比較請求多維度信息。我們發現成功率和響應時間與請求量存在明顯的關系,當請求量上升時,系統成功率大幅下降,而響應時間大幅上升。省級SIP請求次數與成功率、響應時間的變化關系如下圖所示:
>>>>單次業務鏈跟蹤,哪里慢?
在發現了請求響應遲緩之后,我們進一步用優云APM單筆跟蹤功能,跟蹤單一次SIP請求過程,發現大量的錯誤和時延,確定最終錯誤根源在某市級SIP服務器,即省級向市級發起SIP調用過程,市級返回錯誤,調用失敗。
從一次攝像頭視頻請求的過程來看,從省級發起視頻請求,到返回,市級SIP服務器響應時間過長。
>>>> 模擬分析,為什么慢?
到目前為止,問題基本上鎖定在市級的SIP服務器一端。我們對市級的兩萬多攝像頭巡檢。發現成功率4.4%,有返回,但是錯誤返回9.6%,無返回超時86%。
從市級SIP服務器指令監控結果來看,同樣發現成功率和響應時間與請求量存在明顯的關系,當請求量上升時,系統成功率大幅下降,同時響應時間大幅上升。甚至有到1分鐘以上。
是什么原因導致了市級的服務器在處理連續請求,僅僅響應了部分請求之后就連續報出錯誤信息?我們分析了市級SIP服務器的每次響應的時間和狀態關系,最終發現高并發的情況下SIP服務器沒有正確結束請求,釋放資源,導致不能繼續處理后續的請求。
事情終于有了一個結果,但對運維探索卻才剛剛開始。由于一般客戶的視頻系統大量的采用了虛擬化,云化系統建設,使得傳統運維,定點監測的方案在當前的系統架構下已經不能完全勝任。運維如何跟上業務系統的敏捷開發的腳步?得益于優云前瞻的運維方案,快速的、敏捷的,動態跟蹤用戶的軟件架構,有效的幫助定位和解決問題。
作者:劉成穆
·優云軟件資深架構師
· 10多年IT運維管理軟件的研發經驗
· 主要從事應用性能管理的研究和開發工作
優云:秉承devops的理念,從監控、到應用體驗,到自動化持續交付,全棧運維服務平臺。
“ 活動期:現到2016年12月31日前使用優云產品全免費,歡迎詳詢:https://uyun.cn”
更多運維技術文章請關注優云官方微信(broada_ops)
原創文章,作者:uyunops,如若轉載,請注明出處:http://www.www58058.com/28839