時間:2015-06-28 00:00:00 來源:IT貓撲網(wǎng) 作者:網(wǎng)管聯(lián)盟 我要評論(0)
對于諸如斷網(wǎng)、風(fēng)暴等災(zāi)難性的網(wǎng)絡(luò)故障,相信大多數(shù)管理員朋友能夠比較快速地定位并進行排錯。但網(wǎng)絡(luò)是復(fù)雜的,在運維中經(jīng)常會遇到諸如網(wǎng)絡(luò)速度慢,時斷時續(xù),頻繁丟包等故障,相對來說,這些故障的排錯是比較麻煩的。筆者做技術(shù)支持多年,看到運維同仁在遇到此類故障時往往束手無策,此前屢試不爽的觀察法、隔離法、替代法不僅太費時間,而且經(jīng)常讓大家走彎路,并且能否排除故障還是未知數(shù)。基于此,筆者和大家分享一些自己的經(jīng)驗,即通過捕獲網(wǎng)絡(luò)數(shù)據(jù)包并分析的手法對網(wǎng)絡(luò)故障進行診斷,讓網(wǎng)絡(luò)排錯從數(shù)據(jù)包分析開始。
1.數(shù)據(jù)包的捕獲方式
要進行數(shù)據(jù)包分析,首先要在故障的網(wǎng)絡(luò)的特定節(jié)點捕獲數(shù)據(jù)包。因此,筆者先和大家談?wù)剶?shù)據(jù)包的捕獲方式。數(shù)據(jù)包的捕獲方式很多,最常見的是所謂的協(xié)議分析儀。它是針對OSI模型2-7層設(shè)計的,能夠在2-7層上進行解碼,解釋450多種網(wǎng)絡(luò)協(xié)議,采用剝洋蔥方式,從低層開始,一直到第七層,甚至對ORACLE數(shù)據(jù)庫、SYBASE數(shù)據(jù)庫都可以進行協(xié)議分析。協(xié)議分析儀有硬件和軟件相結(jié)合的專門產(chǎn)品,也有純軟件產(chǎn)品。數(shù)據(jù)包捕獲,當(dāng)然首選是專門的硬件分析儀。不過對于一般的網(wǎng)絡(luò),網(wǎng)絡(luò)管理員憑借自己的技術(shù)、經(jīng)驗,借助專門數(shù)據(jù)包捕獲軟件實施網(wǎng)絡(luò)排錯已經(jīng)足夠。筆者通常使用的工具主要是Sniffer,此外微軟的Microsoft Network Monitor也不錯,而科來網(wǎng)絡(luò)分析工具相對容易上手,其圖形化的界面也比較形象。數(shù)據(jù)包捕獲和分析,大家靈活掌握其中的一兩款工具足矣。
2.數(shù)據(jù)包捕獲的工作原理
理解數(shù)據(jù)包捕獲的工作原理,對于管理員來說是非常必要的,下面筆者就其工作原理做一簡述。我們知道,通常在同一個網(wǎng)段的所有網(wǎng)絡(luò)接口都有訪問在物理媒體上傳輸?shù)乃袛?shù)據(jù)的能力,而每個網(wǎng)絡(luò)接口都還應(yīng)該有一個硬件地址,該硬件地址不同于網(wǎng)絡(luò)中存在的其他網(wǎng)絡(luò)接口的硬件地址,同時,每個網(wǎng)絡(luò)還有廣播地址(代表所有的接口地址)。在正常情況下,一個合法的網(wǎng)絡(luò)接口應(yīng)該只響應(yīng)這樣的兩種數(shù)據(jù)幀:幀的目標(biāo)區(qū)域具有和本地網(wǎng)絡(luò)接121相匹配的硬件地址以及幀的目標(biāo)區(qū)域具有"廣播地址"。
在接收到上面兩種情況的數(shù)據(jù)包時,網(wǎng)卡通過CPU產(chǎn)生一個硬件中斷。該中斷能引起操作系統(tǒng)注意,然后將幀中所包含的數(shù)據(jù)傳送給系統(tǒng)進一步處理。而Sniffer就是一種能將本地網(wǎng)卡狀態(tài)設(shè)成混雜(Promiscuous)模式狀態(tài)的工具軟件,當(dāng)網(wǎng)卡處于這種"混雜"方式時,該網(wǎng)卡具備對遭遇到的每一個幀都產(chǎn)生一個硬件中斷,以便提醒操作系統(tǒng)處理流經(jīng)該物理媒體上的每一個報文包(絕大多數(shù)的網(wǎng)卡具備Promiscuous方式的能力)。
3.協(xié)議分析儀的功能
了解協(xié)議分析儀的主要功能,以便管理員在特定情景中利用分析儀進行數(shù)據(jù)捕獲和分析是非常有幫助的,筆者也做一概括。(1).分析從硬件分析儀中捕捉的數(shù)據(jù)包,具有完整的七層包捕捉、過濾和解碼能力。(2).實時監(jiān)測網(wǎng)絡(luò)利用率和誤碼率、幀大小分布、協(xié)議分布、最多發(fā)送者/接收者、對話矩陣、VLAN流量分析、應(yīng)用程序響應(yīng)時間分析等。(3).智能專家故障分析、診斷功能在監(jiān)測實時流量時自動發(fā)現(xiàn)錯誤、快速指出問題所在并給出修改建議。(4).支持本地和遠程網(wǎng)絡(luò)分析。(5)支持特殊的協(xié)議:Extreme EDP、ESRP以及Cisco CDP和VTP等。(6).停止并保存捕捉會話、發(fā)送一個SNMP陷阱、發(fā)送Email或?qū)ず敉ㄖ取?7).在日志文件中保存告警消息、啟動一個應(yīng)用程序和過濾等。(8).協(xié)議分析儀上的功能延展就是加入網(wǎng)管功能、自動網(wǎng)絡(luò)信息搜集功能等。
4.數(shù)據(jù)包分析排除網(wǎng)絡(luò)故障案例
通過上面的介紹,大家對網(wǎng)絡(luò)分析儀捕獲數(shù)據(jù)的方式,以及其工作原理功能有了足夠的了解。下面筆者列舉三個案例,再現(xiàn)用數(shù)據(jù)包分析排除網(wǎng)絡(luò)故障的過程。
案例一:交換機端口鎖死
(1).故障現(xiàn)象
交換機的某一端13聯(lián)接了一個HUB,HUB上面有DNS及WEB服務(wù)器。在沒有任何征兆的情況下,交換機的這一端口突然出現(xiàn)故障,端口上的所有設(shè)備不能聯(lián)網(wǎng)。
(2).故障檢查
?、贀Q交換機另一個好的端口,約幾分鐘后重復(fù)上述故障。
?、趹岩蛇B接交換機的HUB有物理故障,換了一個好的以后,過一段時間后故障仍然存在,可以確定不是HUB故障引起的。
, ③關(guān)掉交換機電源,重新加電后,原來出故障的端口恢復(fù)正常,但過一段時間后故障再次出現(xiàn)。由此判斷端口故障很可能是因某種原因鎖死,并非燒壞。依此,初步判斷故障是由DNS或WEB服務(wù)器的硬件或軟件異常引起的。
?、苁褂肧niffer協(xié)議分析儀接入該網(wǎng)段,測試后發(fā)現(xiàn),DNS通過HUB接入一個好的交換機端口后,很快產(chǎn)生了幾個廣播風(fēng)暴,之后交換機的端口就鎖死。廣播風(fēng)暴是造成交換機端121鎖死的直接原因。
#p#副標(biāo)題#e#
?、萃ㄟ^解讀捕捉到的數(shù)據(jù)包內(nèi)容,可以看到,廣播風(fēng)暴產(chǎn)生的原因,是本地DNS(主)服務(wù)器,與一臺遠程DNS(從)服務(wù)器之間產(chǎn)生了大量通信,通信內(nèi)容是遠程DNS服務(wù)器向本地DNS服務(wù)器查詢一個主機的名字解析,而本地DNS服務(wù)器沒有設(shè)置該主機所在域的DNS服務(wù)器地址,從而造成異常的通信過程。
?、迯膮f(xié)議分析儀還可以看出,在1秒鐘內(nèi),2臺DNS之間有1155個這樣的包來回.這種數(shù)據(jù)包產(chǎn)生了一個廣播風(fēng)暴,造成了交換機端口鎖死。
(3).故障排除
將http://www.*.net/(基于保密用*代替)所在域的DNS服務(wù)器的地址定義在本地DNS上,故障排除。
(4).排錯總結(jié)
在這個例子中,遠程DNS向本地DNS查詢http://www.*.net/的地址解釋,本地DNS答復(fù)找不到以后,理論上遠程DNS不應(yīng)再發(fā)出查詢請示,但由于軟件BUG的問題,造成了DNS系統(tǒng)異常,產(chǎn)生了一個廣播風(fēng)暴,使交換機出現(xiàn)了故障。
案例二:廣域網(wǎng)傳輸極慢
(1).故障現(xiàn)象
在DDN線路上,正常情況下Ping一個遠端的IP,回包時間從三十幾毫秒到幾百毫秒。有一
次回包時間達到3000~5000毫秒之間,遠程訪問速度極慢。
(2).故障檢查
按筆者的經(jīng)驗,這種情況是由于DDN線路有大文件在傳輸?shù)木壒?。將Sniffer協(xié)議分析儀接入廣域口,可以看到上行帶寬被占用了50%,下行帶寬被占用了近100%。再分析捕捉到的包內(nèi)容,發(fā)現(xiàn)大部分的包的交換是在地址192.128.96.23和192.3.54.133之間進行,協(xié)議主要是HTTP。從一臺Pc瀏覽192.3.54.133,發(fā)現(xiàn)是一個個人網(wǎng)站,上面有大量游戲程序,192.128.96.23用戶正是使用了NetAnts在該網(wǎng)頁上下載大量的游戲程序,造成了線路堵塞。
(3).故障排除
在路由器上用訪問控制列表將該個人游戲網(wǎng)站過濾,禁止任何用戶通過路由器對該網(wǎng)站進行HTTP訪問,通信恢復(fù)正常。
案例三:局域網(wǎng)廣播風(fēng)暴故障
(1).故障現(xiàn)象
局域網(wǎng)任意兩臺主機之間互相PING時,掉包非常嚴(yán)重,訪問各種服務(wù)器非常緩慢。
(2).故障檢查
①查看局域網(wǎng)中心交換機的CPU使用率,競高達99%(平時<10%),說明其負載非常重。
?、趯niffer接入網(wǎng)絡(luò)中,發(fā)現(xiàn)平均的帶寬利用率達20%(平時<5%),說明網(wǎng)絡(luò)的的數(shù)據(jù)流量非常大。
?、凼裁丛蛟斐闪巳绱司薮蟮牧髁?通過Sniffer捕捉數(shù)據(jù)包分析,可以明顯看到有一臺主機發(fā)出大量的IPX的數(shù)據(jù)包每秒大約1000個包,這顯然是不正常的。
?、茉撝鳈C為何會發(fā)出IPX數(shù)據(jù)包呢?對數(shù)據(jù)包的詳細解碼發(fā)現(xiàn),該主機發(fā)出的都是SMB(ServerMessageBlock)協(xié)議的數(shù)據(jù)包,數(shù)據(jù)包的源地址和目的地址都相同,且為IPX地址,數(shù)據(jù)包的內(nèi)容是不斷地向網(wǎng)絡(luò)宣告該計算機名(HGF)。SMB協(xié)議用于實現(xiàn)局域網(wǎng)中計算機之間文檔、打印設(shè)備和其他計算機資源的共享,它可以用在TCP/IP協(xié)議之上,也可以用在IPX和NetBEUI之上。在SMB協(xié)議中,計算機為了訪問網(wǎng)絡(luò)資源,就需要了解網(wǎng)絡(luò)上存在的資源列表,這個機制稱為瀏覽,維護網(wǎng)絡(luò)中當(dāng)前資源列表的任務(wù)由網(wǎng)絡(luò)上的幾個特殊計算機完成的,這些計算機被稱為Browser。SMB協(xié)議的Browser通過廣播方式了解當(dāng)前的網(wǎng)絡(luò)資源情況。由此判斷,該主機可能有基于IPX協(xié)議的一些應(yīng)用,且被當(dāng)作Browser。
?、莶檎业街鳈C,發(fā)現(xiàn)只是一臺用于辦公,沒有任何復(fù)雜的應(yīng)用和程序。但在網(wǎng)絡(luò)協(xié)議處發(fā)現(xiàn)安裝了"IPX/SPX/NetBIOS兼容傳輸協(xié)議",該協(xié)議的錯誤配置使得主機被當(dāng)作SMB協(xié)議中的Browser,并不斷向外發(fā)出大量的廣播包,導(dǎo)致整個局域網(wǎng)的擁塞。
(3).故障排除
卸載該主機的"IPX/SPX/NetBIOS兼容傳輸協(xié)議",經(jīng)20多分鐘后(廣播包在網(wǎng)絡(luò)中會存在一定時間),局域網(wǎng)恢復(fù)正常。
多掌握一種工具,在網(wǎng)絡(luò)排錯中就會多一種選擇。基于網(wǎng)絡(luò)分析工具,通過網(wǎng)絡(luò)抓包,網(wǎng)絡(luò)協(xié)議分析的方法進行排錯的無疑是非常有效的,而且非常高效,這是其它傳統(tǒng)的技術(shù)方法所無法比擬的。希望網(wǎng)絡(luò)運維的同仁們能夠盡快掌握這種方法,但愿本文能夠幫助到你。
關(guān)鍵詞標(biāo)簽:網(wǎng)絡(luò)排錯
相關(guān)閱讀
熱門文章 提示dns服務(wù)錯誤怎么辦 dns錯誤問題多種解決方法 “無法瀏覽網(wǎng)頁” 十招解決疑難雜癥 路由器無線不能上網(wǎng)等故障排除 解決VPN路由設(shè)置不能訪問外網(wǎng)的問題
人氣排行 解決VPN路由設(shè)置不能訪問外網(wǎng)的問題 登錄SSH服務(wù)器失敗問題的分析及解決 光纖上網(wǎng) 路由器設(shè)置頁面進不去怎么辦 核心交換機故障現(xiàn)象及解決辦法 無線網(wǎng)卡連接不上怎么辦_無線網(wǎng)卡連接不上解決方法 路由設(shè)置不當(dāng) 導(dǎo)致VPN無法訪問外網(wǎng) 提示dns服務(wù)錯誤怎么辦 dns錯誤問題多種解決方法 徹底避免環(huán)路問題 正確配置交換機步驟