Linuxshell脚本之Sed简介正则表达式

文章由LinuxBoy分享于2019-03-25 06:03:55热评（499）

Linuxshell脚本之Sed简介正则表达式

Sed简介
sed是一款轻量级流编辑器，是stream editor的简写。由于sed是以行为单位进行编辑文件 , 因此也称为行编辑器。它无需直接编辑资料，能够将编辑工作自动化。
sed工作方式：
由标准输入读取编辑文件，读入一行或指定行放到模式空间，然后将所有编辑指令逐一对模式空间的内容进行编辑，之后将结果输出到标准输出，同时清除模式空间。接下来再将下一行资料读入模式空间，如此重复之前的操作，直到最后一行，流编辑器停止。源文件不变
Ps:
1、模式空间为读入行所在的缓存，sed对文本行进行的处理都是在这里进行的
2、一次操作一行, 按顺序逐行应用命令
3、sed命令执行与返回数据几乎同时进行的，在处理每一行数据的将同时就显示结果
4、文件内容存在模式空间，并没有改变，除非使用重定向存储输出，因而不会修改原文件

语法：
由编辑指令与文件组成
1、# sed [sed选项] 'sed命令' 要修改的文件 > 新文件
2、# sed [sed选项] -f sed脚本要修改的文件
3、# sed脚本 [sed选项] 要修改的文件

参数（sed选项）：

-e command：--expression=command：进行多项编辑，表示将后续的字符串解析为sed编辑命令，对输入行应用多条sed命令时使用。
    # sed -e '1,5d' -e 's/boy/girl/' dodo
    # sed --expression='1,5d' --expression='s/boy/girl/' dodo
-e script-file：--expression=script-file：调用指定的sed脚本文件来处理输入的文本文件
-f script-file：--filer=script-file：调用指定的sed脚本文件来处理输入的文本文件
-h：--help：打印帮助
-i：直接修改读取的源文件（默认不修改源文件）
    也可以先备份源文件然后再修改，格式如下：
    # sed -i.bak '1d' filename
-n：--quiet, --silent：取消默认的输出，仅打印匹配模式的行（默认输出所有内容）
-r：sed的动作支持延伸型正规表示法的语法。(默认为基础正规表示法语法)
-V：--version：显示版本信息

sed命令

a\ ：     在定位行号后面加入一行或多行文本。(加入多行时除最后一行每行末尾需用"\"续行)
b lable： 将执行的指令跳至由":"建立的参考位置，如果不存在参考位置则跳转到脚本的末尾
c\：      用新的文本替换定位行的文本。
d：       删除定位行
D：       删除模式空间内的第一行
g：       把当前保持缓冲区中的内容复制到模式空间，替换掉了模式空间中当前行的内容
G：       把当前保持缓冲区中的内容追加到模式空间，追加到了模式空间的当前行后
h：       把模式空间的内容复制到当前保持缓冲区中，把原来暂存缓冲区的内容清除，添加新内容
H：       把模式空间的内容复制到当前保持缓冲区中，追加在保持缓冲区中原有内容的后面
i\：      在定位行号前面插入一行或多行文本。
l：       以可见的严格的形式列出当前模式空间中的内容
n：       读取下一个输入行，用下一个命令处理新的行
N：       追加下一个输入行到模式空间。
p：       打印匹配行
P：       打印模式空间的第一行
q：       第一个模式匹配完成后就退出Sed
r file：  从文件中读取输入行
s：       用一个字符串替换另一个字串。（默认为替换每一行中的第一个）
t label： 如果s指令发生替换操作成功，则跳到":"标记的地方，即使已经读入输入的最后一行，如果没有没有标记则到脚本末尾
T label： 如果s指令发生替换操作失败，则跳到":"标记的地方，即使已经读入输入的最后一行，如果没有没有标记则到脚本末尾
w：       将当前模式空间中的全部内容写入到文件中
W：       将当前模式空间中的第一行写入到文件中
x：       交换模式空间和文本的内容
y：       转换字元，把一个字符翻译为另外的字符（但是不用于正则表达式）
: label： 建立参考位置
{} ：     有相同位址参数的指令组
#：       把注释扩展到下一个换行符之前
=：       显示文件行号
!：       不执行选中行的命令，只对所选行以外的行应用命令

元字符集

sed支持特殊元字符，来进行模式查找、替换
^：          行首定位符。如：/^doiido/匹配所有以doiido开头的行
$：          行尾定位符。如：/doiido$/匹配所有以doiido结尾的行
^$：         表示空白行
.：          匹配换行符以外的字符。如：/d...do/ 匹配d后面接3个任意字符，然后do。
*：          匹配零个或多个前导字符。如：/doiido*/ 匹配所有以doiid开头，后面跟零个或多个o的行
[]：         匹配指定字符组内的任一字符。如：/[Dd]oiido/ 匹配所有包含doiido或Doiido的行
[^]：        匹配不在指定字符组内的任一字符。如：/[^Dd]oiido/ 匹配所有不是以D或者d开头的但是以oiido结尾的行
\(..\)：     保存已匹配的字符。如：s/\(hello\)doiido/\1baby 这里把hello保存为标签1，如果发现hellodoiido则替换成helloboy，最多可以定义9个标签
&：          保存查找字符串用来替换其他字符串。如：s/doiido/--&--/，符号&代表查找字符串，doiido将变成--doiido--
\<：         词首定位符。如：/\<doiido/ 匹配所有包含有以doiido开头的单词的行。 
\>：         词尾定位符。如：/doiido\>/ 匹配所有包含有以doiido结尾的单词的行。
x\{m\}：     连续m个x。如：/2\{8\}/ 匹配所有包含连续8个2的行。 
x\{m,\}：    至少m个x。如：/2\{8,\}/ 匹配所有包含至少连续8个2的行。
x\{m,n\}：   至少m个x，但不多于n个。如：/2\{6,8\}/ 匹配所有包含连续6个到8个2的行。

Ps：匹配元字符$前，必须使用反斜线\屏蔽其特殊含义。比如/\$/

字符类扩展：

[]：          可以和"-"配合使用
[a-z]：       匹配所有的小写字母
[0-9]：       匹配所有的数字
[:space:]：   匹配空格
[:alnum:]：   匹配字母数字 [a-z A-Z 0-9]
[:alpha:]：   匹配字母 [a-z A-Z]
[:blank:]：   匹配 空格或制表键
[:cntrl:]：   匹配 任何控制字符
[:digit:]：   匹配数字 [0-9]
[:graph:]：   匹配任何可视字符（无空格）
[:lower:]：   匹配小写 [a-z]
[:print:]：   匹配非控制字符
[:punct:]：   匹配标点字符
[:space:]：   匹配空格
[:upper:]：   匹配大写 [A-Z]
[:xdigit:]：  匹配十六进制数字 [0-9 a-f A-F]

字符类例子：

^[0-9]：          表示行第一个字符为任意数字
^[0-9]*：         表示行首包含任意个数的数字
[0-9][0-9]*$：    表示行尾包含至少2个数字
s/\.$//g ：       删除以句点结尾的行的句点
s/^[ ][ ]*//：    删除行首的任意个空格
s/^.//：          删除行首的第一个字符
s/^\///：         删除行首的“/”字符
s/SP\(..\)//g：   删除字符“SP”以及紧跟其后的两个任意字符，“SPLLY”-->“Y”
^#/：             以 '#' 开始的任何行匹配
/}^/ ：           将与以 '}'（无空格）结束的任何行匹配
/} *^/ ：         将与以 '}' 后面跟有 零或多个空格结束的任何行匹配 
/[abc]/ ：        将与包含小写 'a'、'b' 或 'c' 的任何行匹配
/^[abc]/ ：       将与以 'a'、'b' 或 'c' 开始的任何行匹配

位置参数：
在默认情况下，在sed编辑器中使用的命令应用于所有文本数据行。
如果仅想将某个命令应用于某一特定的数据行或一组文本数据行，则必须使用行寻址。
行寻址通过定址来定位你所希望编辑的行，是由数据，正则表达式或者二者结合的方式确定。行寻址的格式有如下几种：

x                      x为指定行号
$                      最后一行
x,y                    指定从x到y的行号范围
/pattern/              查询包含模式的行
/pattern/pattern/      查询包含两个模式的行
/pattern/,x            从与pattern的匹配行到x号行之间的行
x,/pattern/            从x号行到与pattern的匹配行之间的行
x,y!                   不包括x和y行号的行

位址参数的个数 :
当只有1个位址参数时，表示只有符合位置参数的资料行才编辑
当有2个位址参数时，如x,y时，表示对x到y的行号范围资料区执行编辑。（包括x和y）

引号语法
1、单引号下，不会对$和后引号`进行解释和执行，即把这两个月当成普通字符
2、双引号下，美元符会被展开为变量或参数的值，后引号中的命令被执行并以输出的结果代替后引号中的内容。
因此平时要使用单引号''，使用变量时使用双引号""
使用变量时：# sed "/$hello/d" dodo
sed退出状态：
1、不管是否找到指定的模式，退出状态都是0。
2、当命令存在语法错误时，sed的退出状态不是0。
转义：
如果需要使用到斜杠"/"，就需要先对其转移，转义一般有以下两种
1：[/]
2：\/

单行使用多条语句
1、在命令之间使用分号
# sed -n '=;p' dodo

2、使用大括号
# sed -n '3{
> =
> p}' dodo

3、使用-e参数
# sed -n -e '=' -e 'p' dodo

4、使用脚本文件，然后使用-f引用
# sed -f scirpt dodo

5、bash shell中可以使用次提示符''
# sed -i '
>s/boy/girl/
>s/hello/byebye/' data

其他sed使用注意：
1、如果不使用地址，命令将应用到所有行
2、默认情况只会替换各行中首次出现的文本，如果一行中有多个需要替换，则需要替换标记
3、如果要定位一特殊字符，则必须使用"\"或者"[]"屏蔽其特殊含义

========================脚本==========================
脚本：Sed脚本就是写在文件中的一列sed命令，启动Sed时以-f选项引导脚本文件名。

脚本工作方式：
执行脚本时，sed先将输入文件中第一行复制到模式空间，然后对其执行脚本中所有的命令。一行处理完毕后，sed再复制文件中下一行到模式空间，对其执行脚本中所有命令。直到最后一行。

脚本注意项：
1、脚本中，在命令的末尾不能有任何空白或文本
2、如果在一行中有多个命令，要用分号分隔。
3、以#开头的行为注释行，且不能跨行。

脚本格式：
#!/bin/sed -f
command1
command2

脚本实例：
# cat test.sed
#!/bin/sed -f
/hello/a\
hi boy doiido
2i\
you are great

添加权限并执行
# chmod u+x test.sed
# ./test.sed dodo

推荐文章：

Linuxshell脚本之Sed简介正则表达式