基本shell编程【3】- 常用的工具awk\sed\sort\uniq\od，awkuniq

文章由LinuxBoy分享于2019-04-03 03:04:13热评（46）

基本shell编程【3】- 常用的工具awk\sed\sort\uniq\od，awkuniq

awk

awk是个很好用的东西，大量使用在linux系统分析的结果展示处理上。并且可以使用管道， input | awk '' | output 1.首先要知道形式 awk 'command' file 如 awk '{print $0}' a.txt b.txt （后面可以跟一个或多个文件） 2.command学习。command是awk的精髓，其结构为 '条件 {动作} 条件2 {动作2} ……' 2.1关键字学习：变量名含义
ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符，默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符 2.2条件与动作。条件包括： BEGIN END 特殊的两个，代表初始化和扫尾判断：如$1 == "abc" $NR == 5 /^tcp/（表示正则匹配）也可不写条件，则表示“全匹配”。从这个角度来讲条件本质上是一种筛选规则。动作： {print NR,NF,$1,$NF,} {if(xxx) xxx; else xxx;} {for(key in array) xxx} 3.实例学习：查看机器建立的各连接数 netstat -n | awk '/^tcp/ {++state[$NF]} END {for(key in state) print key,"\t",state[key]}' 看每个连接的占用内存byte数---apache ps aux|grep -v grep|awk '/httpd/ {sum+=$6;n++};END{print sum/n}' 根据逗号对abc文件的每一行进行split，然后按照第二列进行排序，结果输出到abc-sort中 awk -F, '{print $1}' abc | sort -n -k 2 -t: -r > abc-sort

sort命令解释：
-n 是按照数字排序
-k 是按照第二列排
-t：是以：为分隔符
-r 是倒叙 git查看本次需要提交中变更的内容 git diff master HEAD --stat | awk '{printf "%s\n",$1}' |grep domain | awk -F'/' '{printf "%s\n",$NF}' | sort 批量重命名 ls *需要替换* | awk '{org=$0;gsub("需要替换","替换为");system("echo "org" "$0)}'

sed

sed用法很多，但是根据上节之中，用来做内容替换最多。

sed -i -e 's/^dubbo_provider_version=.*[^e]$/&-pre/' /home/wuji/webroot-xxx/WEB-INF/classes/biz.properties 该命令作用是把 biz.properties中的dubbo_provider_version=1.0.0 替换为dubbo_provider_version=1.0.0-pre 替换的格式为 sed -e ’s/abc/def’ file.txt 把abc替换为def。其中第一部分的正则在第二部分可以被&取到。注意取到的是从dubbo开头的全部，而不是.*部分，这是正则表达式的知识。并且s可以扩展为举例2：去掉所有html标签 $ sed -e 's/<[^>]*>//g' myfile.html g的作用：不加只替换第一个匹配，加了会替换所有匹配 sed -i 直接替换文件而不是在屏幕上输出学习过vim的朋友们可以轻易的联想到vim的命令模式，也有:s/abc/def的写法，所以linux下的知识很多都可以触类旁通。

uniq

uniq可以去除重复行或者做group by的统计文件file: a a b b b sort file | uniq : a b sort file | uniq -c: 2 a 3 b 之所以和sort组合是要把所有的a弄到一起，防止b后面有a的情况。 uniq -d 只显示重复的，-c只显示不重复的，两者互斥。 uniq -dc 只显示重复并统计

sort

功能说明：将文本文件内容加以排序。语　　法：sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件] 补充说明：sort可针对文本文件的内容，以行为单位来排序。实例：以第一个关键列的第二个字母开始进行排序： $ sort -k 1.2 file.txt 以关键列第一列的第二个字母进行排序，如果第二个字母相同则根据第三列以数值的标准进行降序排列。 $ sort -k 1.2,1.2 -k 3,3nr file.txt -k 排序字段，按照-t 分隔符来区分的，从0开始。 -n 以数字格式排序。默认string方式比较的话，20和9比较是后者大。 -r 反序 -d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符。 -b 忽略每行前面开始出的空格字符。 -u 去除重复行。（可以利用这个来去重） sort选项没特别需要讲的，需要注意的就是-k。-k选项的具体语法格式如下： [ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ] 这个语法格式可以被其中的逗号（“，”）分为两大部分，Start部分和End部分。 如果不设定End部分，那么就认为End被设定为行尾。Start部分也由三部分组成，其中的Modifier部分就是我们之前说过的类似n和r的选项部分。 我们重点说说Start部分的FStart和C.Start。 C.Start也是可以省略的，省略的话就表示从本域的开头部分开始。之前例子中的-k 2和-k 3就是省略了C.Start的例子喽。 FStart.CStart，其中FStart就是表示使用的域，而CStart则表示在FStart域中从第几个字符开始算“排序首字符”。 同理，在End部分中，你可以设定FEnd.CEnd，如果你省略.CEnd，则表示结尾到“域尾”，即本域的最后一个字符。或者，如果你将CEnd设定为0(零)，也是表示结尾到“域尾”。

od

od命令是分析文件内容的工具，很多时候不知道文件的内容编码，此时用od命令看文件内部的字节构成是最直接的方式，使用方法： od -Ax -tcx4 file 。可以用于分析字符编码是否utf-8 ，是否LE,BE 至于如何分辨，还需要了解每种编码的规则，譬如utf-8一般以三个字节来显示中文，而gbk则是两个。

推荐文章：

基本shell编程【3】- 常用的工具awk\sed\sort\uniq\od，awkuniq