多數(shù)工具采集所有基礎數(shù)據(jù):CPU、網絡、磁盤(空間使用率和I/O使用率)、內存,等等。這些數(shù)據(jù)應被視為深刻理解基礎架構運行的基礎。我認為,關于服務器,如果你所知道的就只是這些測量數(shù)據(jù)的話,可以認為你就是個瞎子。一個多小小日時的時間里系統(tǒng)CPU的使用率達到12%,而應用程序的行為到底是怎么樣的,這個數(shù)字并不能告訴你多少東西一一而應用程序的行為才是要點。系統(tǒng)資源是如何實際使用的,應用和服務層面的測量數(shù)據(jù)會給出相關的信息。

如果不能用同樣的工具來采集這些數(shù)據(jù)的話,也要盡量用相近的工具,這會有很大的好處。有了這些數(shù)據(jù),就可以回答下面的問題:
● 平均的Web請求的CPU時間(用戶態(tài)和系統(tǒng)態(tài))是多少?
● 和純粹應用程序的執(zhí)行時間比較起來,用于數(shù)據(jù)庫查詢的最慢的API調用花費時間的百分比是多少?
● 對文件系統(tǒng)緩存(而非程序內部的緩存)的依賴有多大?響應時間隨請求率的起伏變化,能說明有共享資源嗎?
● 用于Web頁面、AJAX、RSS、API方法的前端請求各占多少百分比?以文件大小來計,最大的頁面響應是多少?
● 響應時間隨響應大小按比例變化嗎?
● 最慢的數(shù)據(jù)庫查詢是什么?調用頻度是多少?
● 用得最多的數(shù)據(jù)庫查詢是什么?調用頻度是多少?
回答這些問題,能幫助你找出哪些網站建設優(yōu)化值得做、排查問題時從哪里入手、什么樣的資源使用對你而言是“正常”的,從而可以在監(jiān)控系統(tǒng)上設置合適的報警閾值。
本文地址:http://m.honmi.cn//article/3311.html