IT貓撲網(wǎng):您身邊最放心的安全下載站! 最新更新|軟件分類(lèi)|軟件專(zhuān)題|手機(jī)版|論壇轉(zhuǎn)貼|軟件發(fā)布

您當(dāng)前所在位置: 首頁(yè)系統(tǒng)集成網(wǎng)絡(luò)管理 → Nagios關(guān)鍵應(yīng)用監(jiān)控的重要策略

Nagios關(guān)鍵應(yīng)用監(jiān)控的重要策略

時(shí)間:2015-06-28 00:00:00 來(lái)源:IT貓撲網(wǎng) 作者:網(wǎng)管聯(lián)盟 我要評(píng)論(0)

  前段時(shí)間有人問(wèn)我怎么用nagios監(jiān)控linux內(nèi)存使用情況,以及怎么設(shè)置報(bào)警閾值?linux運(yùn)行時(shí),是最大可能的利用內(nèi)存,監(jiān)控這個(gè)對(duì)象沒(méi)有現(xiàn)實(shí)意義,明顯屬于無(wú)效的監(jiān)控策略.另有一人說(shuō):"晚上沒(méi)完沒(méi)了的收到監(jiān)控系統(tǒng)的發(fā)送的報(bào)警短信,受不了…"。不言而喻,這也是一個(gè)不好的監(jiān)控策略,實(shí)際上監(jiān)控已經(jīng)失去了它的意義。所以要讓監(jiān)控平臺(tái)更有效的發(fā)揮作用,好的策略是必須的。那么怎么才能算是好的策略,這里我結(jié)合我的實(shí)際情況,談?wù)勎业囊恍┛捶?,希望?duì)大家有所幫助。

  策略一:監(jiān)控對(duì)象選擇

  在一個(gè)規(guī)模較大的網(wǎng)絡(luò)中,監(jiān)控的對(duì)象可能包括服務(wù)器、防火墻、交換機(jī)、路由器等等設(shè)備,以及運(yùn)行在各對(duì)象上的服務(wù)。但是,我們沒(méi)必要把所有的對(duì)象都放到這個(gè)監(jiān)控系統(tǒng)中來(lái)。比如把某些測(cè)試系統(tǒng)放到監(jiān)控中,就會(huì)產(chǎn)生如上那位老兄整個(gè)晚上收到報(bào)警短信的麻煩。因此,選擇正確的監(jiān)控對(duì)象是實(shí)施有效監(jiān)控的前提,個(gè)人建議,只有那些重要級(jí)別高的,不能隨便停止服務(wù)的對(duì)象――如在線交易系統(tǒng)――才是值得監(jiān)控的對(duì)象。當(dāng)然,服務(wù)器的使用者總希望你把它監(jiān)控上,哪怕它不是那么重要。

  策略二:故障報(bào)警方式選擇

  老板非常希望我們不知疲倦的坐在計(jì)算機(jī)旁,但是他只是一廂情愿而已。對(duì)監(jiān)控系統(tǒng)而言,一定要有合適的故障告警機(jī)制。目前常用的告警機(jī)制包括:郵件、短信、msn、web頁(yè)面顯示等幾種手段,這幾種手段中,短信報(bào)警最佳。因?yàn)樵谝归g睡夢(mèng)中,我們沒(méi)辦法隨時(shí)收郵件,但是短信去能喚醒我們,通知我們發(fā)生故障了,而且在老板和用戶(hù)發(fā)現(xiàn)這個(gè)故障以前。對(duì)于沒(méi)有通道的機(jī)構(gòu)來(lái)說(shuō),租用sp提供的服務(wù)是比較穩(wěn)妥的方式,其他如用移動(dòng)飛信等方式都不怎么考譜,不適合關(guān)鍵性業(yè)務(wù)運(yùn)營(yíng)。另外我使用了一個(gè)小技巧,讓監(jiān)控平臺(tái)每天下午給我發(fā)一條短信,不管有沒(méi)有故障都發(fā),這樣以便讓我知道短信接口是否正常。

  策略三:故障報(bào)警時(shí)效和間隔的選擇

  由于網(wǎng)絡(luò)通信等不可控因素,因此可能存在故障誤報(bào)的情況。如果把報(bào)警發(fā)送設(shè)置成一次探測(cè)不成功就發(fā)送報(bào)警信息就不是個(gè)好策略。經(jīng)驗(yàn)表明:探測(cè)3-4次都失敗再發(fā)送信息,并不耽誤我們?nèi)ヌ幚砉收?。假如探測(cè)一次失敗就報(bào)警,即可以很快把手機(jī)短信空間塞滿,又會(huì)讓你睡不好覺(jué)。

  故障報(bào)警開(kāi)始發(fā)送以后,一般會(huì)沒(méi)完沒(méi)了的發(fā)送,直到故障排除恢復(fù)正常,才會(huì)發(fā)一條類(lèi)似"*** is ok!"的短信。報(bào)警發(fā)送間隔設(shè)置,也是需要費(fèi)一番心思,設(shè)短了,不停的消耗你的短信費(fèi)用,設(shè)長(zhǎng)了,恐怕不足以喚醒沉睡的人;如果沒(méi)有人去處理故障,也沒(méi)有人去停止這個(gè)通知,報(bào)警信息就會(huì)一直發(fā)送下去。

  那怎么樣是一個(gè)合適的范圍呢?我的做法是:探測(cè)4次失敗開(kāi)始報(bào)警,報(bào)警間隔10分鐘,總共發(fā)送8次,然后停止發(fā)送,假如第3次沒(méi)有人去處理,我會(huì)電話通知,沒(méi)回應(yīng)則取消該對(duì)象的監(jiān)控,并記錄該次事件。

  策略四:監(jiān)控平臺(tái)地點(diǎn)的選擇

  對(duì)于一個(gè)規(guī)模比較大的網(wǎng)絡(luò),為了解決南北互聯(lián)問(wèn)題而采取多個(gè)地點(diǎn)建立數(shù)據(jù)中心的辦法。這時(shí)需要對(duì)不同地理位置的服務(wù)器進(jìn)行監(jiān)控,也會(huì)遇到訪問(wèn)慢的問(wèn)題。解決這個(gè)問(wèn)題有幾種方式:1、選擇一個(gè)到各個(gè)位置訪問(wèn)都順暢的數(shù)據(jù)機(jī)房;2、采取分步是監(jiān)控平臺(tái),各處自己收集監(jiān)控信息,然后到一處匯總;3、各數(shù)據(jù)中心單獨(dú)建監(jiān)控平臺(tái)。各人可以根據(jù)自己的實(shí)際情況自行選擇。

  策略五:流量控制和安全

  有不少商業(yè)解決方案采取snmp和客戶(hù)端軟件來(lái)監(jiān)控各個(gè)對(duì)象,這會(huì)引起額外的流量和帶來(lái)安全問(wèn)題。因此盡量不要使用snmp這樣比較占資源的協(xié)議(具稱(chēng)snmp v3似乎有所改進(jìn))。開(kāi)源解決方案Nagios在這方面做得比較完美,值得推薦一下。它可以以插件方式先收集到各監(jiān)控對(duì)象的信息,然后再傳送到監(jiān)控服務(wù)器上,大大節(jié)省網(wǎng)絡(luò)帶寬。

關(guān)鍵詞標(biāo)簽:Nagios

相關(guān)閱讀

文章評(píng)論
發(fā)表評(píng)論

熱門(mén)文章 路由器地址大全-各品牌路由設(shè)置地址 路由器地址大全-各品牌路由設(shè)置地址 各品牌的ADSL與路由器出廠默認(rèn)IP、帳號(hào)、密碼 各品牌的ADSL與路由器出廠默認(rèn)IP、帳號(hào)、密碼 Nslookup命令詳解-域名DNS診斷 Nslookup命令詳解-域名DNS診斷 站長(zhǎng)裝備:十大網(wǎng)站管理員服務(wù)器工具軟件 站長(zhǎng)裝備:十大網(wǎng)站管理員服務(wù)器工具軟件

相關(guān)下載

    人氣排行 各品牌的ADSL與路由器出廠默認(rèn)IP、帳號(hào)、密碼 路由器地址大全-各品牌路由設(shè)置地址 騰達(dá)路由器怎么設(shè)置?騰達(dá)路由器設(shè)置教程 ADSL雙線負(fù)載均衡設(shè)置詳細(xì)圖文教程 路由表說(shuō)明(詳解route print) Nslookup命令詳解-域名DNS診斷 網(wǎng)管員實(shí)際工作的一天 網(wǎng)管必會(huì)!了解交換機(jī)控制端口流量