侧边栏壁纸
博主头像
小周的知识站 博主等级

行动起来,活在当下

  • 累计撰写 80 篇文章
  • 累计创建 12 个标签
  • 累计收到 8 条评论

目 录CONTENT

文章目录

Linux文本内容管理和文件查找

Administrator
2024-06-08 / 0 评论 / 0 点赞 / 11 阅读 / 0 字

Linux文本内容管理和文件查找

1 文本内容管理命令

1.1 文本内容排序

sort #默认升序排序,不是按数值大小排序的

-n #根据数值大小进行排序

-r #逆序排序

-t #字段分隔符

-k #以哪个字段为关键字进行排序

-u #去重,排序后相同的行只显示一次

-f #排序时忽略字符大小写

uniq #将重复的行只显示一遍(连续且完全相同方为重复)

-c #显示文件中行重复的次数

-d #只显示重复的行 -u #只显示未重复的行

1.2 文本内容统计

#文本内容统计

wc #文本内容统计

-l #显示行数

-w #显示单词数

-c #显示字节数

#文件大小统计

du #查看文件或目录占用的磁盘空间大小

-h #以人类友好的方式显示大小

-s #显示总的占用空间大小

#磁盘空间统计

df #报告文件系统磁盘空间使用情况

-h #以人类友好的方式显示大小

-i #显示inode信息

-T #查看文件系统类型

1.3 文本内容过滤

cut截取文本内容

cut #截取文本内容

-d '' #指定字段分隔符,默认是空格

-f #指定要显示的字段

-f 1,3 #显示第1个字段和第3个字段

-f 1-3 #显示第1个字段到第3个字段

awk编程语言

  • awk编程语言/数据处理引擎

  • 创造者:Aho Winberger Kernighan

  • 基于模式匹配检查输入文本,逐行处理并输出,获取指定的数据

  • awk过滤数据时支持仅打印某一列,如:第2列、第4列...

  • awk命令格式1:awk [选项] '条件1{指令} 条件2{指令}' 文件名

  • awk命令格式2:前置命令 | awk [选项] '条件{指令}'

  • 常用指令:print 是最常用的打印指令

  • 常用选项:-F #指定分隔符,如不指定分隔符,默认以空格或tab键为默认分隔符,可通过[]集合匹配多种单个字符

  • awk内置变量:$1第一列,$2第二列,$3第三列,依次类推,NR文件当前行号,NF文件当前列数

示例:

#准备素材
[root@localhost opt]# vim test.txt
hello the woman
welcome to china

#打印文件的第一列
[root@localhost opt]# awk '{print $1}' test.txt 
hello
welcome

#打印文件第一列和第三列
[root@localhost opt]# awk '{print $1,$3}' test.txt 
hello woman
welcome china

#打印passwd文件第一列(默认没有空格与tab键作为分隔符,打印文件所有内容)
[root@localhost opt]# awk '{print $1}' /etc/passwd

#手动指定以:作为分隔,打印文件第一列
[root@localhost opt]# awk -F: '{print $1}' /etc/passwd

#打印文件第一列与第七列
[root@localhost opt]# awk -F: '{print $1,$7}' /etc/passwd

#通过[]集合匹配多种单个字符作为分隔符,打印用户名与解释器字段
[root@localhost opt]# awk -F[:/] '{print $1,$10}' /etc/passwd

#通过正则表达式过滤以root开头的行
[root@localhost opt]# awk -F: '/^root/{print}' /etc/passwd
root:x:0:0:root:/root:/bin/bash

#通过正则表达式过滤以root开头的行,打印第1列与第7列
[root@localhost opt]# awk -F: '/^root/ {print $1,$7}' /etc/passwd
root /bin/bash

#打印文件每一行与每一行的列数
[root@localhost opt]# awk -F: '{print NR,NF}' /etc/passwd

#打印文件每一行与每一行的列数,并打印最后一列
[root@localhost opt]# awk -F: '{print NR,NF,$NF}' /etc/passwd

#通过常量打印执行的列
[root@localhost opt]# awk -F: '{print $1,"用户的解释器为:",$7}' /etc/passwd
root 用户的解释器为: /bin/bash

#匹配第一列包含root的行
[root@localhost opt]# awk -F: '$1~/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash

#排除第7列noloogin的行,打印第1列与第7列
[root@localhost opt]# awk -F: '$7!~/nologin/{print $1,$7}' /etc/passwd

#利用扩展正则过滤,以root或者adm开头的行,打印第1列与第7列
[root@localhost opt]# awk -F: '/^(root|adm)/{print $1,$7}' /etc/passwd
root /bin/bash
adm /sbin/nologin
  • awk使用数值/字符串比较设置条件

  • 等于: ==

  • 不等于: !=

  • 大于: >

  • 大于等于: >=

  • 小于: <

  • 小于等于:<=

#打印行号等于3
[root@localhost opt]# awk 'NR==3{print}' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin

#使用sed更加方便打印某一行
[root@localhost opt]# sed -n '3p' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin

#打印文件中第3列大于等于1000,打印第1列,第3列,第7列
[root@localhost opt]# awk -F: '$3>=1000{print $1,$3,$7}' /etc/passwd
lisi 1000 /bin/bash

#打印文件中第三列小于1000,打印第1列,第3列,第7列
[root@localhost opt]# awk -F: '$3<1000{print $1,$3,$7}' /etc/passwd
root 0 /bin/bash

#打印文件中第3列大于500并且小于1000,打印第1列,第3列,第7列
[root@localhost opt]# awk -F: '$3>500 && $3<1000 {print $1,$3,$7}' /etc/passwd
polkitd 999 /sbin/nologin

#打印第一列不等于root的行
[root@localhost opt]# awk -F: '$1!="root"{print}' /etc/passwd

  • awk过滤时机:awk ‘BEGIN{指令} {指令} END{指令}’ 文件名

    • BEGIN{指令} #读取文件内容之前执行指令,指令执行一次,行前处理

    • {指令} #读取文件过程中执行,指令逐行执行,读一行,执行一次

    • END{指令} #读取文件内容结束后执行指令,指令执行一次,行后处理

#BEGIN{指令}行前处理
[root@localhost opt]# awk 'BEGIN{print "正在处理中"}'
正在处理中

#定义变量
[root@localhost opt]# awk "BEGIN{x=10;print x}"
10

#四则运算
[root@localhost opt]# awk "BEGIN{x=10;print x+5}"
15
[root@localhost opt]# awk "BEGIN{x=10;print x+5}"
15
[root@localhost opt]# awk "BEGIN{x=10;print x-5}"
5
[root@localhost opt]# awk "BEGIN{x=10;print x*5}"
50
[root@localhost opt]# awk "BEGIN{x=10;print x/5}"
2

[root@localhost opt]# awk "BEGIN{print 10+10}"
20
[root@localhost opt]# awk "BEGIN{print 10-5}"
5
[root@localhost opt]# awk "BEGIN{print 10*2}"
20
[root@localhost opt]# awk "BEGIN{print 10/3}"
3.33333
[root@localhost opt]# awk "BEGIN{print 10%3}"
1

#通过awk统计系统里使用bash解释器的用户有什么个?
[root@localhost opt]# awk 'BEGIN{x=0}/bash$/{x++}END{print x}' /etc/passwd
27
[root@localhost opt]# awk '/bash$/{x++}END{print x}' /etc/passwd
27
  • awk分支结构

  • if单分支格式:if(条件){指令}

  • if双分支格式:if(条件){指令}else{指令}

#if单分支统计passwd文件中UID大于或等于1000的用户个数
awk  -F: '{if($3>=1000){x++}} END{print x}' /etc/passwd
if($3>=1000){x++}
[root@localhost ~]# awk -F: '{if($3>=1000){x++}}END{print x}' /etc/passwd

#if双分支统计passwd文件中UID大于等于1000的用户,和小于1000的用户个数
[root@localhost ~]# awk -F: '{if($3>=1000){i++} else{x++}} END{print i,x}' /etc/passwd

  • awk数组

  • 定义数组格式1:数组名[下标]=值

  • 定义数组格式2:数组名=值

  • 数组的用法:for(变量名 in 数组名) {print 数组名[变量]}

#awk定义数组方式
[root@localhost ~]# awk 'BEGIN{x[0]=10;x[1]=20;print x[0],x[1]}'
10 20
​
#awk定义数组方式
[root@localhost ~]# awk 'BEGIN{x[0]++;print x[0]}'
1


awk循环结构

  • 命令格式:for(变量名 in 数组名){print 数组名[变量]}

[root@localhost ~]# awk 'BEGIN{a[0]=00;a[1]=11;a[2]=22;for(i in a){print i,a[i]}}'
0 0
1 11
2 22


awk命令格式2:前置命令 | awk [选项] '条件{指令}'

#通过awk打印剩余内存
[root@localhost opt]# free -h | grep Mem | awk '{print $4}'
134M
[root@localhost opt]# free -h | awk '/Mem/{print $4}'
134M
​
#用awk写一个监控脚本,监控网卡的进出口流量
[root@localhost ~]# vim while_liuliang.sh 
#!/bin/bash
while :
do
        clear
        ifconfig ens32 | awk '/inet /{print "IP:",$2}'
        ifconfig ens32 | awk '/RX p/{print "入口流量:",$6,$7}'
        ifconfig ens32 | awk '/TX p/{print "出口流量:",$6,$7}'
        sleep 0.1
done
​
#使用awk过滤系统根分区使用情况
[root@localhost ~]# df -h | grep '/$' | awk '{print $4}' | awk -FG '{print $1}'
51
​
#过滤根分区剩余空间与物理内存空间
[root@localhost ~]# vim df_free.sh
#!/bin/bash
df -h | grep '/$' | awk '{print "根分区剩余空间:",$4}'
free -h | grep Mem | awk '{print "物理内存剩余空间:", $4}'
​
[root@thinkmo ~]# df -h | grep /$ | awk '{print $4}' | awk -FG '{print $1}'
13
​
#通过awk统计用户登录系统的次数
[root@localhost ~]# who | awk '{ip[$1]++}END{for(i in ip)print i,ip[i]}'
root 1


grep文本过滤

grep        #搜索文本内容,并将匹配的内容所在一整行都显示出来
            #支持使用正则表达式来过滤文本
        --color     #匹配到的内容高亮显示
        -i          #忽略大小写
        -w          #强制模式,完全匹配字词
        -n          #显示匹配到的内容的行号
        -c          #显示匹配到的内容一共有多少行
        -v          #显示没有被模式匹配到的行
        -o          #只显示被模式匹配到的字符串
        -E          #使用扩展正则表达式。grep -E相当于使用egrep
        -q          #静默模式,不向屏幕输出任何信息
        -A 1        #被模式匹配到的内容以及其后面1行的内容都显示出来
        -B 1        #被模式匹配到的内容以及其前面1行的内容都显示出来
        -C 1        #被模式匹配到的内容以及其前后的行各显示1行
        -r          #递归搜索每个目录下的所有文件的文本内容,忽略链接文件
        -R          #递归搜索每个目录下的所有文件的文本内容,不忽略链接文件
egrep       #基于正则表达式查找文件内容
fgrep       #不支持正则表达式,执行速度快

sed流式编辑器

  • sed是一个非交互的文本编辑器,实现的功能跟vim相同,主要是对文件内容进行输出、删除、替换、复制、剪切、导入、导出等功能

  • 命令格式1:前置命令 | sed [选项] '[指令]' 文件名

  • 命令格式2:sed [选项] '[指令]' 文件名

  • 常用选项:

    • -n #屏蔽默认输出,默认sed会将所有的输出结果输出到屏幕中,-n只把sed处理的行输出到屏幕

    • -i #直接修改文件内容,如果不加-i选项,并不会真正改变文件的内容

  • 动作指令:

    • p #输出指定的行,如:2,4p 输出第234行,如:2p;4p 打印第2行与第4行

    • d #删除指定的行,如:2,4d 删除第234行

    • s #字符串替换,如:s/旧字串/新字串/

#打印文件第一行内容
[root@localhost yunwei]# sed -n '1p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
​
#打印文件第三行内容
[root@localhost yunwei]# sed -n '3p' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
​
#打印文件第3行到6行
[root@localhost yunwei]# sed -n '3,6p' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
​
#打印文件第3行到6行
[root@localhost yunwei]# head -6 /etc/passwd | tail -4
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
​
#利用正则表达式匹配以root开头的行(正则表达式要放在//内)
[root@localhost yunwei]# sed -n '/^root/p' /etc/passwd
​
#匹配以bash结尾的行
[root@localhost yunwei]# sed -n '/bash$/p' /etc/passwd
[root@localhost yunwei]# sed -n '/nologin$/p' /etc/passwd
​
#打印文件最后一行,打印行号
[root@localhost yunwei]# sed -n '$=' /etc/passwd
70
​
#打印以root开头的行号
[root@localhost yunwei]# sed -n '/^root/=' /etc/passwd
1
​
#拷贝文件练习
[root@localhost opt]# cp /etc/passwd /opt/test
​
#删除文件2到4行
[root@localhost opt]# sed '2,4d' test | wc -l
67
​
#使用i选项直接修改源文件
[root@localhost opt]# sed -i '2,4d' test 
​
#使用分号分隔
[root@localhost opt]# sed -i '10d;12d' test
[root@localhost opt]# sed -n '$=' test
62
​
#制作素材
[root@localhost opt]# vim 1.txt 
aaaabbbbb
bbbbbaaaa
cccccaaaaa
dddddaaaa
​
​
[root@localhost opt]# sed -n '/aaaa/p' 1.txt
aaaabbbbb
bbbbbaaaa
cccccaaaaa
dddddaaaa
​
#取反删除
[root@localhost opt]# sed -i '/cccc/!d' 1.txt 
[root@localhost opt]# cat 1.txt 
ccccaaaa
​
[root@localhost opt]# vim 1.txt 
aaaabbbb
ddddaaaa
zzzzaaaa
ccccaaaa
​
#删除以ccc开头的行
[root@localhost opt]# sed -i '/^cccc/d' 1.txt
[root@localhost opt]# cat 1.txt 
aaaabbbb
ddddaaaa
zzzzaaaa
​
#删除空行
[root@localhost opt]# sed -i '/^$/d' 1.txt 
[root@localhost opt]# cat 1.txt 
​
#准备素材
[root@localhost opt]# vim xx.txt
2021 2020 2019 2018
2021 2021 2020 2019
2021 2022 2021 2020
​
#替换文件每一行匹配到的第一个字串
[root@localhost opt]# sed 's/2021/xxxx/' xx.txt 
xxxx 2020 2019 2018
xxxx 2021 2020 2019
xxxx 2022 2021 2020
​
#替换文件每一行匹配到的第二个字串
[root@localhost opt]# sed 's/2021/xxxx/2' xx.txt 
2021 2020 2019 2018
2021 xxxx 2020 2019
2021 2022 xxxx 2020
​
#替换文件每一行匹配到的所有指定字串
[root@localhost opt]# sed 's/2021/xxxx/g' xx.txt 
xxxx 2020 2019 2018
xxxx xxxx 2020 2019
xxxx 2022 xxxx 2020
​
#将匹配到的第一个字串替换成空
[root@localhost opt]# sed 's/2021//' xx.txt 
 2020 2019 2018
 2021 2020 2019
 2022 2021 2020
 
 #将匹配到的第=二字串替换成空
[root@localhost opt]# sed 's/2021//2' xx.txt 
2021 2020 2019 2018
2021  2020 2019
2021 2022  2020
​
#替换时屏蔽默认输出
[root@localhost opt]# sed -n 's/root/xxoo/g' test
[root@localhost opt]# sed -n 's/root/xxoo/gp' test
xxoo:x:0:0:xxoo:/xxoo:/bin/bash
operator:x:11:0:operator:/xxoo:/sbin/nologin
​
#替换符可以使用任意的特殊符号
[root@localhost opt]# sed  's#2021#xxoo#' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
[root@localhost opt]# sed  's,2021,xxoo,' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
[root@localhost opt]# sed  's!2021!xxoo!' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
[root@localhost opt]# sed  's;2021;xxoo;' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
[root@localhost opt]# sed  's*2021*xxoo*' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
[root@localhost opt]# sed  's:2021:xxoo:' xx.txt 
xxoo 2020 2019 2018
xxoo 2021 2020 2019
xxoo 2022 2021 2020
​
#将文件中/bin/bash替换成/bin/sh
[root@localhost opt]# sed -n 's/\/bin\/bash/\/bin\/sh/gp' test
[root@localhost opt]# sed -n 's,/bin/bash,/bin/sh,gp' test
​
#使用sed给文件1-7行批量添加注释
[root@localhost opt]# sed -n '1,7s/^/#/p' test 
​
#使用sed给文件1-7行批量添加注释,直接修改源文件
[root@localhost opt]# sed -i '1,7s/^/#/' test 
​
#批量去除1-7行的注释
[root@localhost opt]# sed -n '1,7s/^#//' test
​
#批量去除1-7行的注释,直接修改源文件
[root@localhost opt]# sed -i '1,7s/^#//' test
​
#将文件中所有的数字替换成空
[root@localhost opt]# sed -n 's/[0-9]//gp' test
​
#将文件中所有的英文字母替换成空
[root@localhost opt]# sed -n 's/[a-Z]//gp' test


2 文件查找命令

find文件/目录查找命令

  • find 命令根据预设的条件递归查找文件或目录所在位置

  • 命令格式:find 查找路径 查找条件1 查找条件2 .. [-exec 处理命令 {} \; ]

  • –exec 可接额外的命令来处理查找到结果

  • {} 代表find查找到的内容被放置{}中

  • \; 代表额外处理命令结束

  • 常用查找条件

  • -type 类型(f文件 d目录 l链接文件)

  • -name “文件名”

  • -iname 按文件名查找忽略大小写

  • -size 文件大小(k、M、G + 大于 - 小于)

  • -a (and并且)两个条件同时满足

  • -o (or或者)两个条件满足任意一个即可

  • -user 用户名

  • -mtime 按日期查找(+ 代表多少天之前 - 代表多少天之内,0代表24小时之内)

  • find命令范例

[root@localhost ~]# ls /var/log
 #按照类型查找,类型为文件
[root@localhost ~]# find /var/log -type f
 [root@localhost ~]# ll boot.log-20210417
 [root@localhost ~]# ll /var/log/boot.log-20210417
 [root@localhost ~]# ll /var/log/vmware-network.2.log
 #按照类型查找,类型为目录
[root@localhost ~]# find /var/log -type d
 [root@localhost ~]# ll -d /var/log/tuned
 [root@localhost ~]# ll -d /var/log/qemu-ga
 #按照类型查找,类型为链接文件
[root@localhost ~]# find /var/log -type l
 [root@localhost ~]# fin /etc/ -type l
 0 0
 xfs     
0 0
[root@localhost ~]# find /etc/ -type l
 [root@localhost ~]# ll /etc/scl/conf
 #按照名字查找
[root@localhost ~]# find /etc/ -name passwd
 /etc/passwd
 /etc/pam.d/passwd
 #按照名字查找,类型为文件
[root@localhost ~]# find /etc/ -name passwd -type f
 #按照名字查找,以tab结尾,类型为文件
[root@localhost ~]# find /etc/ -name '*tab' -type f
 #按照名字查找,以pass开头,类型为文件
[root@localhost ~]# find /etc/ -name 'pass*' -type f
 [root@localhost etc]# find . -name '*.conf' -type f
 [root@localhost ~]# find /etc/ -name '*tab*' -type f
 #按照名字忽略大小写查找,类型为文件
[root@localhost ~]# find /etc/ -iname FSTAB -type f
 /etc/fstab
 [root@localhost ~]# find /etc/ -name FSTAB -type f
 #查找大于10k的文件
[root@localhost ~]# find /var/log -size +10k -type f
 [root@localhost ~]# du -h /var/log/boot.log-20210417
 16K /var/log/boot.log-20210417
 #查找大于1M的文件
[root@localhost ~]# find /var/log -size +1M -type f
 [root@localhost ~]# du -h /var/log/audit/audit.log
 2.4M    
/var/log/audit/audit.log
 [root@localhost ~]# find /home -size +1M -type f
 #查找小于1M的文件
[root@localhost ~]# find /var/log -size -1M -type f
 [root@localhost ~]# du -h /var/log/spooler
 0   
/var/log/spooler
 #查找大于10k并且小于20k,类型为文件
[root@localhost ~]# find /var/log -size +10k -a -size -20k -type f
 #-o或者,当有多个条件时,满足任意其中一个即可
[root@thinkmo ~]# find /var/log -name "*.log" -o -size -10k -type f
 #查找属于lisi用户的文件/目录
[root@localhost ~]# find /home -user lisi
 #查找30天之前被修改过,类型为文件
[root@localhost ~]# find /var/log -mtime +30 -type f
 [root@localhost ~]# find /var/log -mtime +10 -type f
 #查找10天之内被修改过,类型为文件
[root@localhost ~]# find /var/log -mtime -10 -type f
root@localhost ~]# find /var/log -mtime -30 -type f
 #查找30之前被修改过,类型为文件,拷贝到/opt目录下
[root@localhost ~]# find /var/log -mtime -30 -type f -exec cp {} /opt \;

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区