[linux]iostat系统监控命令


iostat : Report Central Processing Unit (CPU) statistics and input/output statistics for devices and partitions. 主要是统计cup的状况设备和分区的i/o信息
[root@billtest ~]# iostat
Linux 2.6.18-194.el5 (billtest)      01/09/2014

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
                 8.84    0.17    1.26    1.57    0.00   88.17

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda              21.41         2.04       399.41   39733155 7797825326
sda1              0.00         0.00         0.00       1623         78
sda2              0.00         0.09         0.13    1790370    2594176
sda3              1.69         0.48        53.17    9389146 1038079184
sda4              0.00         0.00         0.00         10          0
sda5              0.01         0.04         0.45     865722    8729848
sda6              5.93         0.63        70.24   12299666 1371347704
sda7             13.77         0.79       275.42   15386170 5377074336
sdb               0.10         0.37         2.48    7227786   48461024



显示结果解读: %user 用户级别的应用当前cup的利用率 %nice 用户级别好的优先级的情况下cup利用率 %system 系统级别的cup使用情况 %iowait 系统输出数据至磁盘时空闲的CPU时间百分比(即IO等待) %steal %idle 系统没有任何数据输出至磁盘的CPU时间百分比(即空闲时间) device tps 该设备每秒的传输次数,一次传输一次I/O Blk_read/s 每秒从设备读取 Blk_wrtn/s- 每秒写入设备 Blk_read 读取的总数据量 Blk_wrtn 写入的总数据量
命令参数: -c 显示cup的统计信息x -d 显示设备的使用状态 -k 某些使用block为单位的列强制使用Kilobytes为单位 -x 给出更多的状态参数Device:
iostat -d -x 1 3 
注: 后面的2个数字的参数的含义是 每秒显示一次,显示三次。
一个是频度,一个是总的显示次数
              rrqm/s   wrqm/s   r/s   w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00    39.00  0.00  4.00     0.00   172.00    86.00     0.06   14.50  10.50   4.20
sda1              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda2              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda3              0.00    39.00  0.00  4.00     0.00   172.00    86.00     0.06   14.50  10.50   4.20
sda4              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda5              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda6              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda7              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdb               0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00

rrqm/s: 每秒进行 merge 的读操作数目.即 delta(rmerge)/s wrqm/s: 每秒进行 merge 的写操作数目.即 delta(wmerge)/s r/s: 每秒完成的读 I/O 设备次数.即 delta(rio)/s w/s: 每秒完成的写 I/O 设备次数.即 delta(wio)/s rsec/s: 每秒读扇区数.即 delta(rsect)/s wsec/s: 每秒写扇区数.即 delta(wsect)/s rkB/s: 每秒读K字节数.是 rsect/s 的一半,因为每扇区大小为512字节.(需要计算) wkB/s: 每秒写K字节数.是 wsect/s 的一半.(需要计算) avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区).delta(rsect+wsect)/delta(rio+wio) avgqu-sz: 平均I/O队列长度.即 delta(aveq)/s/1000 (因为aveq的单位为毫秒). await: 平均每次设备I/O操作的等待时间 (毫秒).即 delta(ruse+wuse)/delta(rio+wio) svctm: 平均每次设备I/O操作的服务时间 (毫秒).即 delta(use)/delta(rio+wio) %util: 一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的.即 delta(use)/s/1000 (因为use的单位为毫秒)
常见用法: $iostat -d -k 1 10 #查看TPS和吞吐量信息 iostat -d -x -k 1 10 #查看设备使用率(%util)、响应时间(await) iostat -c 1 10 #查看cpu状态

怎么读显示的报告: 如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈. idle小于70% IO压力就较大了,一般读取速度有较多的wait. 同时可以结合vmstat 查看查看b参数(等待资源的进程数)和wa参数(IO等待所占用的CPU时间的百分比,高过30%时IO压力高) 另外 await 的参数也要多和 svctm 来参考.差的过高就一定有 IO 的问题. avgqu-sz 也是个做 IO 调优时需要注意的地方,这个就是直接每次操作的数据的大小,如果次数多,但数据拿的小的话,其实 IO 也会很小.如果数据拿的大,才IO 的数据会高.也可以通过 avgqu-sz × ( r/s or w/s ) = rsec/s or wsec/s.也就是讲,读定速度是这个来决定的.
svctm 一般要小于 await (因为同时等待的请求的等待时间被重复计算了),svctm 的大小一般和磁盘性能有关,CPU/内存的负荷也会对其有影响,请求过多也会间接导致 svctm 的增加.await 的大小一般取决于服务时间(svctm) 以及 I/O 队列的长度和 I/O 请求的发出模式.如果 svctm 比较接近 await,说明 I/O 几乎没有等待时间;如果 await 远大于 svctm,说明 I/O 队列太长,应用得到的响应时间变慢,如果响应时间超过了用户可以容许的范围,这时可以考虑更换更快的磁盘,调整内核 elevator 算法,优化应用,或者升级 CPU. 队列长度(avgqu-sz)也可作为衡量系统 I/O 负荷的指标,但由于 avgqu-sz 是按照单位时间的平均值,所以不能反映瞬间的 I/O 洪水.

参考: 1 Linux man iostat 2 http://www.ha97.com/4546.html

相关内容