123,123

您當前所在位置：首頁 → 操作系統(tǒng) → LINUX → linux Load average負載詳細解釋

linux Load average負載詳細解釋 時間：2015-06-28 00:00:00 來源：IT貓撲網(wǎng) 作者：網(wǎng)管聯(lián)盟 我要評論(2)

　　top命令中l(wèi)oad average顯示的是最近1分鐘、5分鐘和15分鐘的系統(tǒng)平均負載。系統(tǒng)平均負載表示

　　系統(tǒng)平均負載被定義為在特定時間間隔內(nèi)運行隊列中(在CPU上運行或者等待運行多少進程)的平均進程樹。如果一個進程滿足以下條件則其就會位于運行隊列中：

　　- 它沒有在等待I/O操作的結果

　　- 它沒有主動進入等待狀態(tài)(也就是沒有調(diào)用’wait’)

　　- 沒有被停止(例如：等待終止)

　　Update：在Linux中，進程分為三種狀態(tài)，一種是阻塞的進程blocked process，一種是可運行的進程runnable process，另外就是正在運行的進程running process。當進程阻塞時，進程會等待I/O設備的數(shù)據(jù)或者系統(tǒng)調(diào)用。

　　進程可運行狀態(tài)時，它處在一個運行隊列run queue中，與其他可運行進程爭奪CPU時間。系統(tǒng)的load是指正在運行running one和準備好運行runnable one的進程的總數(shù)。比如現(xiàn)在系統(tǒng)有2個正在運行的進程，3個可運行進程，那么系統(tǒng)的load就是5。load average就是一定時間內(nèi)的load數(shù)量。

　　一般來說只要每個CPU的當前活動進程數(shù)不大于3那么系統(tǒng)的性能就是良好的，如果每個CPU的任務數(shù)大于5，那么就表示這臺機器的性能有嚴重問題。對于上面的例子來說，假設系統(tǒng)有兩個CPU，那么其每個CPU的當前任務數(shù)為：8.13/2=4.065。這表示該系統(tǒng)的性能是可以接受的。

　　在Linux系統(tǒng)中，uptime、w、top等命令都會有系統(tǒng)平均負載load average的輸出

　　load average: 0.09, 0.05, 0.01

　　很多人會這樣理解負載均值：三個數(shù)分別代表不同時間段的系統(tǒng)平均負載(一分鐘、五分鐘、以及十五分鐘)，它們的數(shù)字當然是越小越好。數(shù)字越高，說明服務器的負載越大，這也可能是服務器出現(xiàn)某種問題的信號。

　　而事實不完全如此，是什么因素構成了負載均值的大小，以及如何區(qū)分它們目前的狀況是 "好"還是"糟糕"?什么時候應該注意哪些不正常的數(shù)值?

　　回答這些問題之前，首先需要了解下這些數(shù)值背后的些知識。我們先用最簡單的例子說明，一臺只配備一塊單核處理器的服務器。

　　行車過橋

　　一只單核的處理器可以形象得比喻成一條單車道。設想下，你現(xiàn)在需要收取這條道路的過橋費 — 忙于處理那些將要過橋的車輛。你首先當然需要了解些信息，例如車輛的載重、以及還有多少車輛正在等待過橋。如果前面沒有車輛在等待，那么你可以告訴后面的司機通過。如果車輛眾多，那么需要告知他們可能需要稍等一會。

　　因此，需要些特定的代號表示目前的車流情況，例如：

　　0.00 表示目前橋面上沒有任何的車流。實際上這種情況與 0.00 和 1.00 之間是相同的，總而言之很通暢，過往的車輛可以絲毫不用等待的通過。

　　1.00 表示剛好是在這座橋的承受范圍內(nèi)。這種情況不算糟糕，只是車流會有些堵，不過這種情況可能會造成交通越來越慢。

　　超過 1.00，那么說明這座橋已經(jīng)超出負荷，交通嚴重的擁堵。那么情況有多糟糕? 例如 2.00 的情況說明車流已經(jīng)超出了橋所能承受的一倍，那么將有多余過橋一倍的車輛正在焦急的等待。3.00 的話情況就更不妙了，說明這座橋基本上已經(jīng)快承受不了，還有超出橋負載兩倍多的車輛正在等待。

　　上面的情況和處理器的負載情況非常相似。一輛汽車的過橋時間就好比是處理器處理某線程的實際時間。Unix 系統(tǒng)定義的進程運行時長為所有處理器內(nèi)核的處理時間加上線程在隊列中等待的時間。

　　和收過橋費的管理員一樣，你當然希望你的汽車(操作)不會被焦急的等待。所以，理想狀態(tài) 下，都希望負載平均值小于 1.00 。當然不排除部分峰值會超過 1.00，但長此以往保持這個狀態(tài)，就說明會有問題，這時候你應該會很焦急。

　　"所以你說的理想負荷為 1.00 ?"

　　嗯，這種情況其實并不完全正確。負荷 1.00 說明系統(tǒng)已經(jīng)沒有剩余的資源了。在實際情況中，有經(jīng)驗的系統(tǒng)管理員都會將這條線劃在 0.70：

　　"需要進行調(diào)查法則"：如果長期你的系統(tǒng)負載在 0.70 上下，那么你需要在事情變得更糟糕之前，花些時間了解其原因。

　　"現(xiàn)在就要修復法則"：1.00 。如果你的服務器系統(tǒng)負載長期徘徊于 1.00，那么就應該馬上解決這個問題。否則，你將半夜接到你上司的電話，這可不是件令人愉快的事情。

　　"凌晨三點半鍛煉身體法則"：5.00。如果你的服務器負載超過了 5.00 這個數(shù)字，那么你將失去你的睡眠，還得在會議中說明這情況發(fā)生的原因，總之千萬不要讓它發(fā)生。

　　那么多個處理器呢?我的均值是 3.00，但是系統(tǒng)運行正常!

　　哇喔，你有四個處理器的主機?那么它的負載均值在 3.00 是很正常的。

　　在多處理器系統(tǒng)中，負載均值是基于內(nèi)核的數(shù)量決定的。以 100% 負載計算，1.00 表示單個處理器，而 2.00 則說明有兩個雙處理器，那么 4.00 就說明主機具有四個處理器。

　　回到我們上面有關車輛過橋的比喻。1.00 我說過是"一條單車道的道路"。那么在單車道 1.00 情況中，說明這橋梁已經(jīng)被車塞滿了。而在雙處理器系統(tǒng)中，這意味著多出了一倍的負載，也就是說還有 50% 的剩余系統(tǒng)資源 — 因為還有另外條車道可以通行。

　　所以，單處理器已經(jīng)在負載的情況下，雙處理器的負載滿額的情況是 2.00，它還有一倍的資源可以利用。

　　多核與多處理器

　　先脫離下主題，我們來討論下多核心處理器與多處理器的區(qū)別。從性能的角度上理解，一臺主機擁有多核心的處理器與另臺擁有同樣數(shù)目的處理性能基本上可以認為是相差無幾。當然實際情況會復雜得多，不同數(shù)量的緩存、處理器的頻率等因素都可能造成性能的差異。

　　但即便這些因素造成的實際性能稍有不同，其實系統(tǒng)還是以處理器的核心數(shù)量計算負載均值。這使我們有了兩個新的法則：

　　"有多少核心即為有多少負荷"法則：在多核處理中，你的系統(tǒng)均值不應該高于處理器核心的總數(shù)量。

　　"核心的核心"法則：核心分布在分別幾個單個物理處理中并不重要，其實兩顆四核的處理器等于四個雙核處理器等于八個單處理器。所以，它應該有八個處理器內(nèi)核。

　　審視我們自己

　　讓我們再來看看 uptime 的輸出

　　~ $ uptime

　　23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36

　　這是個雙核處理器，從結果也說明有很多的空閑資源。實際情況是即便它的峰值會到 1.7，我也從來沒有考慮過它的負載問題。

　　那么，怎么會有三個數(shù)字的確讓人困擾。我們知道，0.65、0.42、0.36 分別說明上一分鐘、最后五分鐘以及最后十五分鐘的系統(tǒng)負載均值。那么這又帶來了一個問題：

　　我們以哪個數(shù)字為準?一分鐘?五分鐘?還是十五分鐘?

　　其實對于這些數(shù)字我們已經(jīng)談論了很多，我認為你應該著眼于五分鐘或者十五分鐘的平均數(shù) 值。坦白講，如果前一分鐘的負載情況是 1.00，那么仍可以說明認定服務器情況還是正常的。但是如果十五分鐘的數(shù)值仍然保持在 1.00，那么就值得注意了(根據(jù)我的經(jīng)驗，這時候你應該增加的處理器數(shù)量了)。

　　那么我如何得知我的系統(tǒng)裝備了多少核心的處理器?

　　在 Linux 下，可以使用

　　cat /proc/cpuinfo

　　獲取你系統(tǒng)上的每個處理器的信息。如果你只想得到數(shù)字，那么就使用下面的命令：

　　grep 'model name' /proc/cpuinfo | wc -l

　　Popularity: 11% [?]

關鍵詞標簽：linux,average負載

相關閱讀

文章評論

查看所有2條評論>>