CentOS Shell常用技巧 awk编程,centosawk变量的类型可以是数字


awk编程:


1.

变量:


在awk中变量无须定义即可使用,变量在赋值时即已经完成了定义。变量的类型可以是数字、字符串。根据使用的不同,未初始化变量的值为0或空白字符串"

",这主要取决于变量应用的上下文。下面为变量的赋值负号列表:

符号

含义

等价形式

=

a = 5

a = 5

+=

a = a + 5

a += 5

-=

a = a - 5

a -= 5

*=

a = a * 5

a *= 5

/=

a = a / 5

a /= 5

%=

a = a % 5

a %= 5

^=

a = a ^ 5

a ^=

5

/> awk '$1 ~ /Tom/ {Wage = $2 * $3;

print Wage}' filename


该命令将从文件中读取,并查找第一个域字段匹配Tom的记录,再将其第二和第三个字段的乘积赋值给自定义的Wage变量,最后通过print命令将该变量打印输出。


/>

awk ' {$5 = 1000 * $3 / $2; print}' filename


在上面的命令中,如果$5不存在,awk将计算表达式1000 * $3 /

$2的值,并将其赋值给$5。如果第五个域存在,则用表达式覆盖$5原来的值。


我们同样也可以在命令行中定义自定义的变量,用法如下:


/> awk -F: -f awkscript month=4

year=2011 filename


这里的month和year都是自定义变量,且分别被赋值为4和2000,在awk的脚本中这些变量将可以被直接使用,他们和脚本中定义的变量在使用上没有任何区别。


除此之外,awk还提供了一组内建变量(变量名全部大写),见如下列表:

变量名

变量内容

ARGC

命令行参数的数量。

ARGIND

命令行正在处理的当前文件的AGV的索引。

ARGV

命令行参数数组。

CONVFMT

转换数字格式。

ENVIRON

从shell中传递来的包含当前环境变量的数组。

ERRNO

当使用close函数或者通过getline函数读取的时候,发生的重新定向错误的描述信息就保存在这个变量中。

FIELDWIDTHS

在对记录进行固定域宽的分割时,可以替代FS的分隔符的列表。

FILENAME

当前的输入文件名。

FNR

当前文件的记录号。

FS

输入分隔符,默认是空格。

IGNORECASE

在正则表达式和字符串操作中关闭大小写敏感。

NF

当前文件域的数量。

NR

当前文件记录数。

OFMT

数字输出格式。

OFS

输出域分隔符。

ORS

输出记录分隔符。

RLENGTH

通过match函数匹配的字符串的长度。

RS

输入记录分隔符。

RSTART

通过match函数匹配的字符串的偏移量。

SUBSEP

下标分隔符。

/> cat employees2


Tom Jones:4424:5/12/66:543354


Mary Adams:5346:11/4/63:28765


Sally

Chang:1654:7/22/54:650000


Mary Black:1683:9/23/44:336500


/>

awk -F: '{IGNORECASE = 1}; $1 == "mary adams" { print NR, $1, $2, $NF}'

employees2


2 Mary Adams 5346 28765


/>

awk -F: ' $1 == "mary adams" { print NR, $1, $2, $NF}'

employees2


没有输出结果。


当IGNORECASE内置变量的值为非0时,表示在进行字符串操作和处理正则表达式时关闭大小写敏感。这里的"mary adams"将匹配文件中的"Mary

Admams"记录。最后print打印出第一、第二和最后一个域。需要说明的是NF表示当前记录域的数量,因此$NF将表示最后一个域的值。


awk在动作部分还提供了BEGIN块和END块。其中BEGIN动作块在awk处理任何输入文件行之前执行。事实上,BEGIN块可以在没有任何输入

文件的条件下测试。因为在BEGIN块执行完毕以前awk将不读取任何输入文件。BEGIN块通常被用来改变内建变量的值,如OFS、RS或FS等。也可

以用于初始化自定义变量值,或打印输出标题。


/> awk 'BEGIN {FS = ":"; OFS =

"t"; ORS = "nn"} { print $1,$2,$3} filename


上例中awk在处理文件之前,已经将域分隔符(FS)设置为冒号,输出文件域分隔符(OFS)设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。BEGIN之后的动作模块中如果有多个语句,他们之间用分号分隔。


和BEGIN恰恰相反,END模块中的动作是在整个文件处理完毕之后被执行的。


/> awk 'END {print "The number of

the records is " NR }' filename


awk在处理输入文件之后,执行END模块中的动作,上例中NR的值是读入的最后一个记录的记录号。


/>

awk '/Mary/{count++} END{print "Mary was found " count " times." }'

employees2


Mary was found 2 times.

/> awk '/Mary/{count++} END{print

"Mary was found " count " times." }' employees2


Mary was

found 2 times.


/> cat

testfile


northwest NW Charles Main

3.0 .98 3 34


western WE Sharon

Gray 5.3 .97 5 23


southwest SW

Lewis Dalsass 2.7 .8 2 18


southern

SO Suan Chin 5.1 .95 4 15


southeast SE Patricia Hemenway 4.0 .7 4

17


eastern EA TB Savage 4.4 .84

5 20


northeast NE AM Main Jr. 5.1

.94 3 13


north NO Margot Weber

4.5 .89 5 9


central CT Ann

Stephens 5.7 .94 5 13


/>

awk '/^north/{count += 1; print count}' testfile

#如记录以正则north开头,则创建变量count同时增一,再输出其值。


1


2


3


#这里只是输出前三个字段,其中第七个域先被赋值给变量x,在自减一,最后再同时打印出他们。


/> awk 'NR <= 3 {x = $7--; print "x = " x ", $7 =

" $7}' testfile


x = 3, $7 = 2


x = 5, $7 = 4


x =

2, $7 = 1


#打印NR(记录号)的值在2--5之间的记录。


/> awk 'NR == 2,NR == 5 {print "The record number is

" NR}' testfile


The record number is 2


The record

number is 3


The record number is 4


The record number is

5


#打印环境变量USER和HOME的值。环境变量的值由父进程shell传递给awk程序的。


/> awk 'BEGIN { print

ENVIRON["USER"],ENVIRON["HOME"]}'


root /root


#BEGIN块儿中对OFS内置变量重新赋值了,因此后面的输出域分隔符改为了t。


/> awk 'BEGIN { OFS = "t"}; /^Sharon/{ print

$1,$2,$7}' testfile


western WE 5


#从输入文件中找到以north开头的记录count就加一,最后在END块中输出该变量。


/> awk '/^north/{count++}; END{print count}'

testfile


3

2. 重新定向:


动作语句中使用shell通用的重定向输出符号">"就可以完成awk的重定向操作,当使用>的时候,原有文件将被清空,同时文件持续打开,

直到文件被明确的关闭或者awk程序终止。来自后面的打印语句的输出会追加到前面内容的后面。符号">>"用来打开一个文件但是不清空原有文

件的内容,重定向的输出只是被追加到这个文件的末尾。


/> awk '$4

>= 70 {print $1,$2 > "passing_file"}' filename #注意这里的文件名需要用双引号括起来。


#通过两次cat的结果可以看出>和>>的区别。


/> awk '/north/{print $1,$3,$4 > "districts" }'

testfile


/> cat

districts


northwest Joel Craig


northeast TJ

Nichols


north Val Shultz


/>

awk '/south/{print $1,$3,$4 >> "districts" }'

testfile


/> cat

districts


northwest Joel Craig


northeast TJ

Nichols


north Val Shultz


southwest Chris Foster


southern

May Chin


southeast Derek Jonhson


awk中对于输入重定向是通过getline函数来完成的。getline函数的作用是从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得

输入。他负责从输入获得下一行的内容,并给NF、NR和FNR等内建变量赋值。如果得到一个记录,getline就返回1,如果达到文件末尾就返回0。如

果出现错误,如打开文件失败,就返回-1。


/> awk 'BEGIN {

"date" | getline d; print d}'


Tue Nov 15 15:31:42 CST

2011


上例中的BEGIN动作模块中,先执行shell命令date,并通过管道输出给getline,然后再把输出赋值给自定义变量d并打印输出它。


/> awk 'BEGIN { "date" | getline d;

split(d,mon); print mon[2]}'


Nov


上例中date命令通过管道输出给getline并赋值给d变量,再通过内置函数split将d拆分为mon数组,最后print出mon数组的第二个元素。


/> awk 'BEGIN { while("ls" |

getline) print}'


employees


employees2


testfile


命令ls的输出传递给getline作为输入,循环的每个反复,getline都从ls的结果中读取一行输入,并把他打印到屏幕。


/> awk 'BEGIN { printf "What is your name?

";


getline name <

"/dev/tty"}


$1 ~ name

{print "Found" name " on line ", NR "."}


END {print "See ya, " name "."}'

employees2


What is your name? Mary


Found Mary on line

2.


See ya, Mary.


上例先是打印出BEGIN块中的"What is your name?

",然后等待用户从/dev/tty输入,并将读入的数据赋值给name变量,之后再从输入文件中读取记录,并找到匹配输入变量的记录并打印出来,最后在END块中输出结尾信息。


/> awk 'BEGIN { while(getline < "/etc/passwd" > 0) lc++;

print lc}'


32


awk将逐行读取/etc/passwd文件中的内容,在达到文件末尾之前,计数器lc一直自增1,当到了末尾后打印lc的值。lc的值为/etc/passwd文件的行数。


由于awk中同时打开的管道只有一个,那么在打开下一个管道之前必须关闭它,管道符号右边可以通过可以通过双引号关闭管道。如果不关闭,它将始终保持打开状态,直到awk退出。


/> awk {print $1,$2,$3 | "sort -4 +1 -2 +0 -1"} END

{close("sort -4 +1 -2 +0 -1") } filename


上例中END模块中的close显示关闭了sort的管道,需要注意的是close中关闭的命令必须和当初打开时的完全匹配,否则END模块产生的输出会和以前的输出一起被sort分类。


3.

条件语句:


awk中的条件语句是从C语言中借鉴来的,见如下声明方式:


if (expression) {


statement;


statement;


... ...


}


/> awk '{if ($6 > 50)

print $1 "Too hign"}' filename


/> awk '{if ($6 > 20 && $6 <= 50) {

safe++; print "OK}}' filename


if (expression) {


statement;


} else {


statement2;


}


/> awk '{if ($6 > 50) print $1 " Too high"; else print "Range is OK" }'

filename


/> awk '{if ($6

> 50) { count++; print $3 } else { x = 5; print $5 }'

filename


if (expression)

{


statement1;


} else if (expression1) {


statement2;


} else {


statement3;


}


/> awk '{if ($6 > 50)

print "$6 > 50" else if ($6 > 30) print "$6 > 30" else print "other"}'

filename


4.

循环语句:


awk中的循环语句同样借鉴于C语言,支持while、do/while、for、break、continue,这些关键字的语义和C语言中的语义完全相同。


5.

流程控制语句:


next语句是从文件中读取下一行,然后从头开始执行awk脚本。


exit语句用于结束awk程序。它终止对记录的处理。但是不会略过END模块,如果exit()语句被赋值0--255之间的参数,如exit(1),这个参数就被打印到命令行,以判断退出成功还是失败。


6. 数组:


为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格

里。由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,awk也

同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。


/> cat employees


Tom

Jones 4424 5/12/66 543354


Mary Adams 5346

11/4/63 28765


Sally Chang 1654 7/22/54

650000


Billy Black 1683 9/23/44 336500


/> awk '{name[x++] = $2}; END{for (i = 0; i <

NR; i++) print i, name[i]}' employees


0 Jones


1

Adams


2 Chang


3 Black


在上例中,数组name的下标是变量x。awk初始化该变量的值为0,在每次使用后自增1,读取文件中的第二个域的值被依次赋值给name数组的各个元素。在END模块中,for循环遍历数组的值。因为下标是关键字,所以它不一定从0开始,可以从任何值开始。


#这里是用内置变量NR作为数组的下标了。


/> awk '{id[NR]

= $3}; END {for (x = 1; x <= NR; x++) print id[x]}'

employees


4424


5346


1654


1683


awk中还提供了一种special for的循环,见如下声明:


for (item

in arrayname) {


print

arrayname[item]


}


/> cat

db


Tom Jones


Mary Adams


Sally Chang


Billy Black


Tom Savage


Tom Chung


Reggie Steel


Tommy

Tucker


/> awk

'/^Tom/{name[NR]=$1}; END {for(i = 1;i <= NR; i++) print name[i]}'

db


Tom


Tom


Tom


Tommy


从输出结果可以看出,只有匹配正则表达式的记录的第一个域被赋值给数组name的指定下标元素。因为用NR作为下标,所以数组的下标不可能是连续的,因

此在END模块中用传统的for循环打印时,不存在的元素就打印空字符串了。下面我们看看用special for的方式会有什么样的输出。


/> awk '/^Tom/{name[NR]=$1};END{for(i in name)

print name[i]}' db


Tom


Tom


Tommy


Tom


下面我们看一下用字符串作为下标的例子:(如果下标是字符串文字常量,则需要用双引号括起来)


/> cat testfile2


tom


mary


sean


tom


mary


mary


bob


mary


alex


/> awk

'/tom/{count["tom"]++}; /mary/{count["mary"]++}; END{print "There are "

count["tom"]


" Toms

and " count["mary"] " Marys in the file."} testfile2


There

are 2 Toms and 4 Marys in the file.


在上例中,count数组有两个元素,下标分别为tom和mary,每一个元素的初始值都是0,没有tom被匹配的时候,count["tom"]就会加一,count["mary"]在匹配mary的时候也同样如此。END模块中打印出存储在数组中的各个元素。


/> awk '{count[$1]++}; END{for(name in count)

printf "%-5s%dn",name, count[name]}' testfile2


mary 4


tom 2


alex 1


bob 1


sean 1


在上例中,awk是以记录的域作为数组count的下标。


/>

awk '{count[$1]++; if (count[$1] > 1) name[$1]++}; END{print "The duplicates

were "; for(i in name) print i}' testfile2


The duplicates

were


mary


tom


在上例中,如count[$1]的元素值大于1的时候,也就是当名字出现多次的时候,一个新的数组name将被初始化,最后打印出那么数组中重复出现的名字下标。


之前我们介绍的都是如何给数组添加新的元素,并赋予初值,现在我们需要介绍一下如何删除数组中已经存在的元素。要完成这一功能我们需要使用内置函数delete,见如下命令:


/> awk '{count[$1]++};


END{for(name in count)

{


if

(count[name] == 1)


delete count[name];


}


for (name in count)


print name}'

testfile2


mary


tom


上例中的主要技巧来自END模块,先是变量count数组,如果数组中某个元素的值等于1,则删除该元素,这样等同于删除只出现一次的名字。最后用special

for循环打印出数组中仍然存在的元素下标名称。


最后我们来看一下如何使用命令行参数数组,见如下命令:


/> awk 'BEGIN {for(i = 0; i < ARGC; i++)

printf("argv[%d] is %s.n",i,ARGV[i]); printf("The number of arguments,

ARGC=%dn",ARGC)}' testfile "Peter Pan" 12


argv[0] is

awk.


argv[1] is testfile.


argv[2] is Peter Pan.


argv[3] is

12.


The number of arguments, ARGC=4


从输出结果可以看出,命令行参数数组ARGV是以0作为起始下标的,命令行的第一个参数为命令本身(awk),这个使用方式和C语句main函数完全一致。


/> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is "

ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"


ARGV[2] is

bob


bob


awk: (FILENAME=testfile2 FNR=9) fatal: cannot open file

`bob' for reading (No such file or directory)


先解释一下以上命令的含义,name变量被赋值为命令行的第三个参数,即bob,之后再在输入文件中找到匹配该变量值的记录,并打印出该记录。


在输出的第二行报出了awk的处理错误信息,这主要是因为awk将bob视为输入文件来处理了,然而事实上这个文件并不存在,下面我们需要做进一步的处理来修正这个问题。


/> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is "

ARGV[2]; delete ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"


ARGV[2] is bob


bob


从输出结果中我们可以看到我们得到了我们想要的结果。需要注意的是delete函数的调用必要要在BEGIN模块中完成,因为这时awk还没有开始读取命令行参数中指定的文件。


7.

内建函数:


字符串函数


sub(regular expression,substitution

string);


sub(regular

expression,substitution string,target string);


/> awk '{sub("Tom","Tommy"); print}' employees

#这里使用Tommy替换了Tom。


Tommy Jones 4424 5/12/66

543354


#当正则表达式Tom在第一个域中第一次被匹配后,他将被字符串"Tommy"替换,如果将sub函数的第三个参数改为$2,将不会有替换发生。


/> awk '{sub("Tom","Tommy",$1); print}'

employees


Tommy Jones 4424 5/12/66

543354


gsub(regular

expression,substitution string);


gsub(regular expression,substitution string,target string);


和sub不同的是,如果第一个参数中正则表达式在记录中出现多次,那么gsub将完成多次替换,而sub只是替换第一次出现的。


index(string,substring)


该函数将返回第二个参数在第一个参数中出现的位置,偏移量从1开始。


/>

awk 'BEGIN{print index("hello","el")}'


2


length(string)


该函数返回字符串的长度。


/> awk 'BEGIN{print

length("hello")}'


5


substr(string,starting position)


substr(string,starting position,length of string)


该函数返回第一个参数的子字符串,其截取起始位置为第二个参数(偏移量为1),截取长度为第三个参数,如果没有该参数,则从第二个参数指定的位置起,直到string的末尾。


/> awk 'BEGIN{name = substr("Hello World",2,3);

print name}'


ell


match(string,regular expression)


该函数返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式就返回0.match函数设置内置变量RSTART为字符串中子字符串的开始位置,RLENGTH为到字字符串末尾的字符个数。


/> awk 'BEGIN{start=match("Good ole CHINA",

/[A-Z]+$/); print start}'


10


上例中的正则表达式[A-Z]+$表示在字符串的末尾搜索连续的大写字母。在字符串"Good ole

CHINA"的第10个位置找到字符串"CHINA"。


/> awk

'BEGIN{start=match("Good ole CHINA", /[A-Z]+$/); print RSTART,

RLENGTH}'


10 5


RSTART表示匹配时的起始索引,RLENGTH表示匹配的长度。


/> awk 'BEGIN{string="Good ole CHINA";start=match(string, /[A-Z]+$/); print

substr(string,RSTART, RLENGTH)}'


CHINA


这里将match、RSTART、RLENGTH和substr巧妙的结合起来了。


toupper(string)


tolower(string)


以上两个函数分别返回参数字符串的大写和小写的形式。


/> awk 'BEGIN {print toupper("hello"); print

tolower("WORLD")}'


HELLO


world


split(string,array,field seperator)


split(string,array)


该函数使用作为第三个参数的域分隔符把字符串分隔为一个数组。如果第三个参数没有提供,则使用当前默认的FS值。


/> awk 'BEGIN{split("11/20/2011",date,"/"); print

date[2]}'


20


variable

= sprintf("string with format specifiers ",expr1,expr2,...)


该函数和printf的差别等同于C语言中printf和sprintf的差别。前者将格式化后的结果输出到输出流,而后者输出到函数的返回值中。


/> awk 'BEGIN{line = sprintf("%-15s %6.2f ",

"hello",4.2); print line}'


hello 4.20


时间函数:


systime()


该函数返回当前时间距离1970年1月1日之间相差的秒数。


/> awk

'BEGIN{print systime()}'


1321369554


strftime()


时间格式化函数,其格式化规则等同于C语言中的strftime函数提供的规则,见以下列表:

数据格式

含义

%a

Abbreviated weekday

name

%A

Full weekday

name

%b

Abbreviated month

name

%B

Full month

name

%c

Date and time representation

appropriate for locale

%d

Day of month as decimal number

(01 – 31)

%H

Hour in 24-hour format (00 –

23)

%I

Hour in 12-hour format (01 –

12)

%j

Day of year as decimal number

(001 – 366)

%m

Month as decimal number (01 –

12)

%M

Minute as decimal number (00 –

59)

%p

Current locale's A.M./P.M.

indicator for 12-hour clock

%S

Second as decimal number (00 –

59)

%U

Week of year as decimal

number, with Sunday as first day of week (00 – 53)

%w

Weekday as decimal number (0 –

6; Sunday is 0)

%W

Week of year as decimal

number, with Monday as first day of week (00 – 53)

%x

Date representation for

current locale

%X

Time representation for

current locale

%y

Year without century, as

decimal number (00 – 99)

%Y

Year with century, as decimal

number

/> awk 'BEGIN{ print

strftime("%D",systime())}'


11/15/11


/> awk 'BEGIN{ now = strftime("%T"); print

now}'


23:17:29


内置数学函数:

名称

返回值

atan2(x,y)

y,x范围内的余切

cos(x)

余弦函数

exp(x)

求幂

int(x)

取整

log(x)

自然对数

sin(x)

正弦函数

sqrt(x)

平方根

/> awk 'BEGIN{print

31/3}'


10.3333


/>

awk 'BEGIN{print int(31/3)}'


10


自定义函数:


自定义函数可以放在awk脚本的任何可以放置模板和动作的地方。


function

name(parameter1,parameter2,...) {


statements


return

expression


}


给函数中本地变量传递值。只使用变量的拷贝。数组通过地址或者指针传递,所以可以在函数内部直接改变数组元素的值。函数内部使用的任何没有作为参数传递

的变量都被看做是全局变量,也就是这些变量对于整个程序都是可见的。如果变量在函数中发生了变化,那么就是在整个程序中发生了改变。唯一向函数提供本地变

量的办法就是把他们放在参数列表中,这些参数通常被放在列表的最后。如果函数调用没有提供正式的参数,那么参数就初始化为空。return语句通常就返回

程序控制并向调用者返回一个值。


/> cat

grades


20 10


30 20


40 30


/> cat add.sc


function add(first,second) {


return first + second


}


{ print

add($1,$2) }


/> awk -f

add.sc grades


30


50


70

相关内容

    暂无相关文章