网站系统及服务层面的测量数据

这是在运维工程师笔记本电脑上以图形方式显示的数据,这些数据是由工具采集并显示的,这些工具有Cacti、Ganglia、Hyperic HQ、Zenoss、Munin,或其他你总能碰到的什么工具。采集这些系统资源数据绝对需要很高的分辨率,才能刻画系统容量、实时进行错误排查、跨越不同集群对数据进行关联。
 
多数工具采集所有基础数据:CPU、网络、磁盘(空间使用率和I/O使用率)、内存,等等。这些数据应被视为深刻理解基础架构运行的基础。我认为,关于服务器,如果你所知道的就只是这些测量数据的话,可以认为你就是个瞎子。一个多小小日时的时间里系统CPU的使用率达到12%,而应用程序的行为到底是怎么样的,这个数字并不能告诉你多少东西一一而应用程序的行为才是要点。系统资源是如何实际使用的,应用和服务层面的测量数据会给出相关的信息。

如果不能用同样的工具来采集这些数据的话,也要尽量用相近的工具,这会有很大的好处。有了这些数据,就可以回答下面的问题:
● 平均的Web请求的CPU时间(用户态和系统态)是多少?
● 和纯粹应用程序的执行时间比较起来,用于数据库查询的最慢的API调用花费时间的百分比是多少?
● 对文件系统缓存(而非程序内部的缓存)的依赖有多大?响应时间随请求率的起伏变化,能说明有共享资源吗?
● 用于Web页面、AJAX、RSS、API方法的前端请求各占多少百分比?以文件大小来计,最大的页面响应是多少?
 
● 响应时间随响应大小按比例变化吗?
● 最慢的数据库查询是什么?调用频度是多少?
 
● 用得最多的数据库查询是什么?调用频度是多少?
回答这些问题,能帮助你找出哪些网站建设优化值得做、排查问题时从哪里入手、什么样的资源使用对你而言是 正常 的,从而可以在监控系统上设置合适的报警阈值。


扫描二维码分享到微信