Shell 编程(五):文本三剑客之 Sed
- 陈大剩
- 2023-02-06 18:00:16
- 1118
Sed 的工作模式
sed(Stream Editor)是一种流编辑器,sed 是对标准输出或文件逐行进行处理。sed 会在编辑器处理数据以前基于预先提供的一组规则来编辑数据流。能够根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。
语法格式
第一种形式
stdout | sed [option] "/pattern/command"
第二种形式
sed [option] "/pattern/command" file
不加 pattern 则匹配全部
处理过程
- 依次次从输入中读取一行数据。
- 根据所提供的编辑器命令匹配数据。
- 按照命令修改流中的数据。
- 将新的数据输出到 STDOUT。
sed 的选项
选项 | 含义 |
---|---|
-n | 只打印模式匹配行 |
-e | 直接在命令行进行sed编辑【默认选项】 |
-f | 编辑动作保存在文件中,指定文件执行 |
-r | 支持 扩展正则表达式 |
-i | 直接修改文件内容 |
例子
- 匹配全部行
> vim sed.txt
I love python
I love php
I love PYTHON
# 不加 -n 参数默认会打印匹配行和非匹配行
> sed 'p' sed.txt
I love python
I love python
I love php
I love php
I love PYTHON
I love PYTHON
> sed -n 'p' sed.txt
I love python
I love php
I love PYTHON
- 匹配字符串
> sed -n 'p' sed.txt
I love python
I love php
I love PYTHON
- 匹配多个表达式
> sed -n -e '/python/p' -e '/PYTHON/p' sed.txt
I love python
I love PYTHON
- 指定文件执行
> vim edit.sed
/python/p
> sed -n -f edit.sed sed.txt
I love python
- 匹配扩展正则表达式
> sed -n -r '/python|PYTHON/p' sed.txt
I love python
I love PYTHON
- 替换字符串
> sed -n 's/love/like/g;p' sed.txt
I like python
I like php
I like PYTHON
> cat sed.txt
I love python
I love php
I love PYTHON
> sed -i 's/love/like/g' sed.txt
> cat sed.txt
I like python
I like php
I like PYTHON
不加
-i
参数只会输出替换结果,并不会替换文件的内容
sed 中 pattern 详解
匹配模式 | 含义 |
---|---|
10command | 匹配到第10行 |
10,20command | 匹配从第10行开始,到第20行结束 |
10,+5command | 匹配从第10行开始,到第16行结束 |
/pattern1/command | 匹配到pattern1的行【常用】 |
/pattern1/,/pattern2/command | 匹配到pattern1的行开始,到匹配到pattern2的行结束【常用】 |
10,/pattern1/command | 匹配从第10行开始,到匹配到pettern1的行结束 |
/pattern1/, 10command | 匹配到pattern1的行开始,到第10行匹配结束 |
例子
- 直接打印第 10 行
> sed -n '10p' passwd
operator:x:11:0:operator:/root:/sbin/nologin
- 指定起始行号和结束行号
> sed -n '1,10p' passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
- 指定起始行号,然后后面 N 行
> sed -n '8,+2p' passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
- 正则表达式匹配的行 【常用】
> sed -n '/^root/p' passwd
root:x:0:0:root:/root:/bin/bash
- 从匹配到 pattern1 的行,到匹配到 pattern2 【常用】
> sed -n '/^ftp/,/^mail/p' passwd
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
...
redis:x:1002:1002::/home/redis:/sbin/nologin
mysql:x:1003:1003::/home/mysql:/sbin/nologin
- 从指定行号开始匹配,直到匹配到 pattern1 的内容
> sed -n '8,/operator/p' passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
- 从 pattern1 匹配的行开始,直到匹配到指定行
> sed -n '/operator/,12p' passwd
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
sed 中的编辑命令详解
类别 | 编辑命令 | 含义 |
---|---|---|
查询 | p | 打印 |
增加 | a | 行后追加 |
增加 | i | 行前追加 |
增加 | r | 外部文件读入,行后追加 |
增加 | w | 匹配行写入外部文件 |
删除 | d | 删除 |
修改 | s/old/new | 将行内第一个old替换为new |
修改 | s/old/new/ g | 将行内全部的old替换为new |
修改 | s/old/new/2 | 将行内第2个开始的old替换为new |
修改 | s/old/new/ig | 将行内olg全部替换为new,忽略大小写 |
例子
- 删除 /sbin/nologin 登入的用户
> sed -i '\/sbin\/nologin/d' passwd
> cat passwd
root:x:0:0:root:/root:/bin/bash
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
- 删除以 mail 开头的行到以 ftp 开头的行
> sed -i '/^mail/,/^ftp/d' passwd
- 将能登入的用户追加一行 ‘This is user which can login to system’ passwd ’
> sed -i '/\/bin\/bash/a This is user which can login to system' passwd
> cat passwd
root:x:0:0:root:/root:/bin/bash
This is user which can login to system
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
...
- 将 sed.txt 内容追加 /sbin/nologin 行后
> sed -i '/root/r sed.txt' passwd
> cat passwd
root:x:0:0:root:/root:/bin/bash
I like python
I like php
I like PYTHON
bin:x:1:1:bin:/bin:/sbin/nologin
- 将匹配的 /bin/bash 行存入 user_login.txt 中
> sed -i '/\/bin\/bash/w user_login.txt' passwd
> cat user_login.txt
root:x:0:0:root:/root:/bin/bash
- 将 passwd 文件中 /sbin/nologin 替换 /SBIN/NOLOGIN
> sed -i 's/\/sbin\/nologin/\/SBIN\/NOLOGIN/g' passwd
> cat passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/SBIN/NOLOGIN
daemon:x:2:2:daemon:/sbin:/SBIN/NOLOGIN
adm:x:3:4:adm:/var/adm:/SBIN/NOLOGIN
lp:x:4:7:lp:/var/spool/lpd:/SBIN/NOLOGIN
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/SBIN/NOLOGIN
- 显示匹配的行号
> sed -n '/\/sbin\/nologin/=' passwd
2
3
4
5
9
10
11
增、删、改、查都可以结合上街 sed 中 pattern 详解
反向引用
什么是反向引用?
&
和 \1
引用模式匹配到的整个串。
sed 's/1..e/&r/g' file
sed 's/\(1..e\) /\1r/g' file
两种方式实现了一样的功能,分别使用 &
和 \1
引用前面匹配到的整个字符串,区别在于 &
只能表示匹配到的完整字符串,只能引用整个宇符串;而 \1
可以使用 ()
对匹配到的字符串。
例子
新建文件
> vim str.txt
hadoops is a bigdata frame
Spark hadoops Kafka
Skill on hadoops
Paper of hadoops
- 通过正则匹配 had..p 整句后加 s 【
&
反向引用】
> sed -i 's/had..p/&s/g' str.txt
> cat str.txt
hadoopss is a bigdata frame
Spark hadoopss Kafka
Skill on hadoopss
Paper of hadoopss
- 通过正则匹配 had..p 整句后加 doop 【
\1
反向引用】
> sed -i 's/\(had\)..p/\1doop/g' str.txt
> cat str.txt
haddoops is a bigdata frame
Spark haddoops Kafka
Skill on haddoops
Paper of haddoops
\1
相当于站位符,替换了前面的 ()。当然也可以多写几个括号,再通过\1
、2
、…使用。
注意事项
- 匹配模式中存在变量,则建议使用双引号。
- sed 中需要引入自定义变量时,如果外面使用单引号,则自定义变量也必须使用单引号。
利用 sed 查找文件内容
练习
- 打印 /etc/passwd 中第 20 行的内容
> sed -n '20p' /etc/passwd
chrony:x:996:993::/var/lib/chrony:/sbin/nologin
- 打印 /etc/passwd 中从第 8 行开始,到第 15 行结束的内容
> sed -n '8,15p' /etc/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
systemd-coredump:x:999:996:systemd Core Dumper:/:/sbin/nologin
- 打印 /ete/passwd 中人第 8 行开始,然后 +5 行结束的内容
> sed -n '8,+5p' /ete/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
- 打印 /etc/passwd 中开头匹配 root 字符串的内容
> sed -n '/^root/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
- 打印 /etc/passwd 中第 8 行开始,到含有 /sbin/nologin 的内容
> sed -n '8,/\/sbin\/nologin/p' /etc/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
- 打印 /etc/passwd 中开头为 root 的行开始,到开头为 halt 的行结束的内容
> sed -n '/^root/,/^halt/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
- 打印 /etc/passwd 中第一个包含 /bin/bash 内容的行开始,到第 5 行结束的内容
> sed -n '/\/bin\/bash/,5p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
实战
处理一个类似 MySql 配置文件 my.cnf 的文本,示例如下; 编写脚本实现以下功能:输出文件有几个段,并且针对每个段可以统计配置参数总个数;
my.cnf 如下
预想输出:
client 2
mysqld 19
...
[client]
#password = your_password
port = 3306
socket = /tmp/mysql.sock
[mysqld]
port = 3306
socket = /tmp/mysql.sock
datadir = /www/server/data
default_storage_engine = InnoDB
performance_schema_max_table_instances = 400
table_definition_cache = 400
skip-external-locking
key_buffer_size = 32M
max_allowed_packet = 100G
table_open_cache = 128
sort_buffer_size = 768K
net_buffer_length = 4K
read_buffer_size = 768K
read_rnd_buffer_size = 256K
myisam_sort_buffer_size = 8M
thread_cache_size = 16
query_cache_size = 16M
tmp_table_size = 32M
sql-mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES
explicit_defaults_for_timestamp = true
#skip-name-resolve
max_connections = 500
max_connect_errors = 100
open_files_limit = 65535
log-bin=mysql-bin
binlog_format=mixed
server-id = 1
expire_logs_days = 10
slow_query_log=1
slow-query-log-file=/www/server/data/mysql-slow.log
long_query_time=3
#log_queries_not_using_indexes=on
early-plugin-load = ""
innodb_data_home_dir = /www/server/data
innodb_data_file_path = ibdata1:10M:autoextend
innodb_log_group_home_dir = /www/server/data
innodb_buffer_pool_size = 128M
innodb_log_file_size = 64M
innodb_log_buffer_size = 16M
innodb_flush_log_at_trx_commit = 1
innodb_lock_wait_timeout = 50
innodb_max_dirty_pages_pct = 90
innodb_read_io_threads = 2
innodb_write_io_threads = 2
[mysqldump]
quick
max_allowed_packet = 500M
[mysql]
no-auto-rehash
[myisamchk]
key_buffer_size = 32M
sort_buffer_size = 768K
read_buffer = 2M
write_buffer = 2M
[mysqlhotcopy]
interactive-timeout
代码
#!/bin/bash
FILE_NAME=$(pwd)'/my.cnf'
function get_all_segments {
sed -n '/\[.*\]/p' $FILE_NAME | sed -e 's/\[//g' -e 's/\]//g'
}
function count_items_in_segment {
items=`sed -n "/\[.*$1.*\]/,/\[.*\]/p" $FILE_NAME | grep -v "^#" | grep -v "^$"|grep -v "\[.*\]"`
# echo $items
index=0
for item in $items
do
index=`expr $index + 1`
done
echo $index
}
for segment in `get_all_segments`
do
echo $segment `count_items_in_segment $segment`
done
利用 sed 删除特定内容
查询命令 | 含义 |
---|---|
1d | 删除第 1 行内容 |
1,10d | 删除 1 行到 10 行的内容 |
1,+5d | 删除 1 行到 6 行的内容 |
/pattern1/d | 删除每行中匹配到 pattern1 的行内容 |
/pattern1/,/pattern2/d | 删除匹配到 pattern1 的行直到匹配到 pattern2 的所有行内容 |
/pattern1/,10d | 删除匹配到 pattern1 的行到 10 行的所有行内容 |
10,/pattern1/d | 删除第 10 行直到匹配到 pattern1 的所有行内容 |
例子
- 删除配置文件 /etc/nginx 中的所有注释行和空行
> sed -i '/[:blank:]*#/d;/^$/d' nginx
- 在配置文件 /etc/nginx 中所有不以 # 开头的行前面添加 * 符号,注意:以 # 开头的行不添加
> sed -i 's/^[^#]/\*&/g' nginx
- 删除 /etc/passwd 中的第 15 行
> sed -i '15d' passwd
- 删除 /etc/passwd 中第 5 行到以 ftp 开头的所有行的内容
> sed -i '5,/^ftp/d' passwd
利用 sed 修改文件内容
编辑命令 | 含义 |
---|---|
1s/old/new/ | 替换第1 行内容 old 为 new |
1,10s/old/new/ | 替换 1 行到 10 行的内容 old 为 new |
1,+5s/old/new/ | 替换 1 行到 6 行的内容 old 为 new |
/pattern1/s/old/new/ | 替换匹配到 pattern1 的行内容 old 为 new |
/pattern1/,/pattern2/s/old/new/ | 替换匹配到 pattern1 的行直到匹配到 pattern2 的所有行内容 old 为 new |
/pattern1/, 10s/old/new/ | 替换匹配到 pattern1 的行到 10 行的所有行内容 old 为 new |
10,/pattern 1/s/old/new/ | 替换第 10 行直到匹配到 pattern1 的所有行内容 old 为 new |
例子
- 修改 /etc/passwd 中第 1 行中第 1 个 root 为 ROOT
> sed -i '1s/root/ROOT/' passwd
> cat passwd
- 修改 /etc/passwd 中第 5 行到第 10 行中所有的 /sbin/nologin 为 /bin/bash
> sed -i '5,10s/\/sbin\/nologin/\/bin\/bash/g' passwd
> cat passwd
- 修改 /etc/passwd 中匹配到 /sbin/nologin 的行,将匹配到行中的 login 改为大写的 LOGIN
> sed -i '/\/sbin\/nologin/s/login/LOGIN/g' passwd
> cat passwd
- 修改 /etc/passwd 中从匹配到以 root 开头的行,到匹配到行中包含 mail 的所有行。修改内为将这些所有匹配到的行中的 bin 改为 HADOOP
> sed -i '/^root/,/mail/s/bin/HADOOP/g' passwd
> cat passwd
- 修改 /etc/passwd 中从匹配到以 root 开头的行,到第 15 行中的所有行,修改内容为将这些行中的 nologin 修改为 SPARK
> sed -i '/^root/,15s/nologin/SPARK/g' passwd
> cat passwd
- 修改 /etc/passwd 中从第 15 行开始,到匹配到以 yarn 开头的所有行,修改内容为将这些行中的 bin 换位 BIN
> sed -i '15,/^yarn/s/bin/BIN/g' passwd
> cat passwd
利用 sed 追加文件内容
追加用法 | 含义 |
---|---|
a | 在匹配行后面追加 |
i | 在匹配行前面追加 |
r | 将文件内容追加到匹配行后面 |
w | 将匹配行写入指定文件 |
- passwd 文件匹配到 /bin/bash 的行后面追加 “Insert Line For /bin/bash Behind”
> sed -i '/\/bin\/bash/a Insert Line For /bin/bash Behind' passwd
> cat passwd
- passwd 文件每一行前面都追加 “Insert Line Before Every Line”
> sed -i 'Insert Line Before Every Line' passwd
> cat passwd
- 将 /etc/vconsole.conf 文件内容追加到 passwd 文件中特定行后面,匹配以 ftp 开头的行,到第 18 行的所有行
> sed -i '/^ftp/,18r /etc/vconsole.conf' passwd
> cat passwd
- 将 passwd 文件从第 10 行开始,到匹配到 hdfs 开头的所有行内容追加到 /tmp/sed-1.txt
> sed -i '10,/^hdfs/w /tmp/sed-1.txt' passwd
> cat /tmp/sed-1.txt