Linux入门教程:Linux Awk使用案例总结 nginx日志统计,nginx日志 Awk中数组称为关

文章由LinuxBoy分享于2019-10-24 05:10:58热评（581）

Linux入门教程:Linux Awk使用案例总结 nginx日志统计,nginx日志 Awk中数组称为关

知识点：

数组

数组是用来存储一系列值的变量，可通过索引来访问数组的值。
Awk中数组称为关联数组，因为它的下标（索引）可以是数字也可以是字符串。
下标通常称为键，数组元素的键和值存储在Awk程序内部的一个表中，该表采用散列算法，因此数组元素是随机排序。

数组格式：array[index]=value

一、Nginx日志分析

日志格式

'$remote_addr - $remote_user [$time_local] "$request" $status $request_body  $body_bytes_sent "$http_referer"  "$http_user_agent" "$http_x_forwarded_for"

日志记录：

183.251.21.109 - - [16/Sep/2017:09:43:36 +0800] "POST /article/getKeywords HTTP/1.1" 200 str=Linux+Awk%E4%BD%BF%E7%94%A8%E6%A1%88%E4%BE%8B%E6%80%BB%E7%BB%93+nginx%E6%97%A5%E5%BF%97%E7%BB%9F%E8%AE%A1  185 "http://xxxx" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36" "-"

1、统计日志中访问最多的10个IP

思路：对第一列进行去重，并输出出现的次数

方法1：

awk '{a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2：

awk '{print $1}' access.log |sort |uniq -c |sort -k1 -nr |head -n10

说明：a[$1]++ 创建数组a，以第一列作为下标，使用运算符++作为数组元素，元素初始值为0。处理一个IP时，下标是IP，元素加1，处理第二个IP时，下标是IP，元素加1，如果这个IP已经存在，则元素再加1，也就是这个IP出现了两次，元素结果是2，以此类推。因此可以实现去重，统计出现次数。

2、统计日志中访问大于100次的IP

方法1：

awk '{a[$1]++}END{for(i in a){if(a[i]>100)print i,a[i]}}' access.log

方法2：

awk '{a[$1]++;if(a[$1]>100){b[$1]++}}END{for(i in b){print i,a[i]}}' access.log

说明：方法1是将结果保存a数组后，输出时判断符合要求的IP。方法2是将结果保存a数组时，并判断符合要求的IP放到b数组，最后打印b数组的IP。

3、统计2016年4月9日一天内访问最多的10个IP

思路：先过滤出这个时间段的日志，然后去重，统计出现次数

方法1：

awk '$4>="[9/Apr/2016:00:00:01" && $4<="[9/Apr/2016:23:59:59" {a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2：

sed -n '/\[9\/Apr\/2016:00:00:01/,/\[9\/Apr\/2016:23:59:59/p' access.log |sort |uniq -c |sort -k1 -nr |head -n10  #前提开始时间与结束时间日志中必须存在

4、统计当前时间前一分钟的访问数

思路：先获取当前时间前一分钟对应日志格式的时间，再匹配统计

date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date '$0~date{c++}END{print c}' access.log

date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date '$4>="["date":00" && $4<="["date":59"{c++}END{print c}' access.log

grep -c $(date -d '-1 minute' +%d/%b/%Y:%H:%M) access.log

说明：date +%d/%b/%Y:%H:%M –> 09/Apr/2016:01:55

5、统计访问最多的前10个页面（$request）

awk '{a[$7]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

6、统计每个URL访问内容的总大小（$body_bytes_sent）

awk '{a[$7]++;size[$7]+=$10}END{for(i in a)print a[i],size[i],i}' access.log

7、统计每个IP访问状态码数量（$status)

awk '{a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

8、统计访问状态码为404的IP及出现次数

awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

推荐文章：

Linux入门教程:Linux Awk使用案例总结 nginx日志统计,nginx日志 Awk中数组称为关