2

利用pv命令监视数据的处理进度

 2 years ago
source link: https://3mile.github.io/archives/2020/0410095448/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

利用pv命令监视数据的处理进度

2020-04-10

发布在 Linux

A beautiful sunrise

在处理Linux系统上的大文件时, 特别是拷贝/备份/压缩这些操作, 可能想要了解这些大文件的处理进度, 然而在管道中工作的终端工具可能并没有提供查看进度信息的功

能, 此时就需要称为’pv'或者Pipe Viewer的工具监控通过管道的数据的进度信息, 已消耗的时间, 进度条显示的完成百分比, 当前管道的吞吐量, 已传输的数据量, 预计完成的时间等.

引申阅读:

利用nc命令快速完成目录数据传输
引申阅读:

利用tar命令进行压缩


来源: CentOS Linux release 7.2.1511 (Core) User Manuals PV(1)

pv [OPTION] [FILE]  
pv [-h|-V]  

Pipe Viewer用于监视通过管道的数据进度信息. pv使用户能够看到数据通过管道的进度, 并提供例如耗时,完成比例,吞吐量,传输量和ETA等这些信息. 为了实现上述功能需要将该命令插入到两个进程之间的管道中, 并佐以合适的选项. 它的标准输入经由它到达其标准输出, 同时进度信息会显示在标准错误上. pv依次拷贝FILE中的数据到其标准输出( - 表示标准输入), 如果FILE未提供仅仅拷贝标准输入. 该命令行的行为与cat类似.

  • 注意:如果输入数据量无法计算, 并且输出是一个块设备, 那么块设备的大小会用来作为输出总量, 即使指定了-S –stop-at-size选项, pv也会停在该位置.

不带任何选项时, 默认自带-p –progress(带进度条的完成比例), -t –timer(已消耗时间), -e –eta(预估剩余时间), -r –rate(已传输总量), -b –bytes(数据量总量)

2.1 监视打开/拷贝文件进度

利用pv打开一个文件, 标准输出可以重定向到一个新文件或者/dev/null. -L 选项表示限速, 控制通过pv的数据流速, 便于查看进度信息. 默认显示进度信息包括: 传输的数据量, 已消耗时间, 数据传输速率, 进度条和完成比率, 预估剩余时间.

pv

[root]pv -L 10k cups-2.1.4-source.tar.gz 1>/dev/null
30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03
[root]pv -L 10k cups-2.1.4-source.tar.gz 1>cups-2.1.4-source.tar.gz.bak
30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03

2.2 监视压缩文件进度

利用pv打开一个数据通道, 并将pv的标准输出作为zip的标准输入. ‘-’ 表示zip命令压缩当前标准输入的数据. 为了清除zip程序的标准错误输出, 将其中定向到Null设备, 此时输出信息就只剩下pv的标准错误输出信息.

[root]pv -L 10k cups-2.1.4-source.tar.gz | zip 1>/dev/null
  adding: -  10kiB 0:00:01 [9.23kiB/s] [====>                                 ] 14% 
  67.6kiB 0:00:06 [9.98kiB/s] [====================================>] 100%            
  (deflated 0%)
[root]pv -L 10k cups-2.1.4-source.tar.gz | (zip 1>cups.zip 2>/dev/null)             
  30kiB 0:00:03 [10.1kiB/s] [===============>                      ] 44% ETA 0:00:03
[root]pv -L 10k cups-2.1.4-source.tar.gz | (zip 1>/dev/null 2>/dev/null)
  67.6kiB 0:00:06 [9.98kiB/s] [====================================>] 100%  

gzip直接压缩文件和通过pv显示进度信息的执行过程比较

[root]gzip -c pvtest.dat > pvtest.dat.gz
[root]du -sb pvtest.dat.gz 
  5781    pvtest.dat.gz
[root]pv -L 10k pvtest.dat | gzip > pvtest.dat.gz    
  14.8kiB 0:00:01 [10.3kiB/s] [===============================>] 100%            
[root]du -sb pvtest.dat.gz 
  5770    pvtest.dat.gz 

2.3 监视数据内容搜索进度

利用wc命令计算文件的行数/词数/字节数, wc没有进度信息的功能, 通过pv来监视数据传输量就可以很容易得到当前文件的完成比例.

[root]pv -L 5k pvtest.dat | wc
14.8kiB 0:00:02 [4.97kiB/s] [====================================>] 100%            
    381    2095   15169

利用grep命令搜索文件内容, -n命令以整数显示数据量的完成比例, -i设置进度更新间隔时间(可以是小数), 可以很容易看出完成的比例.

[root]pv -n -i 0.5 -L 5k pvtest.dat | grep seconds
16
  use, then each output line is prefixed with the elapsed time so far, as a decimal number of seconds.
33
  Wait SEC seconds between updates.  The default is to update every second.  Note that this can be a decimal such as 0.1.
50
67
84
100

利用grep命令搜索文件内容, -N 标记经由pv的管道流名称.

[root]pv -N GrepRate -i 0.1 -L 5k pvtest.dat | grep seconds
  use, then each output line is prefixed with the elapsed time so far, as a decimal number of seconds.
  Wait SEC seconds between updates.  The default is to update every second.  Note that this can be a decimal such as 0.1.
GrepRate: 11.5kiB 0:00:02 [5.53kiB/s] [===================>       ] 77% ETA 0:00:00

2.4 监视tar的备份进度

tar命令中的第一个’-‘写备份文件到标准输出, 备份文件通过管道作为pv的标准输入, 经由pv后作为标准输出写入文件down.tgz. pv显示选项中的部分长短选项-t –timer, -r –rate, -b –bytes. 由于数据总量无法后去, 完成比例的进度条显示就无法明确显示, 同时-e –eta亦-p –propress也是无法显示.

[root]tar -czf - ./down/ | (pv -L 10k -p --timer --rate --bytes > down.tgz)
68.1kiB 0:00:06 [9.91kiB/s] [       <=>                                            ]

对tar文件不启用压缩, 而是通过后续的gzip命令来压缩数据, 为了获取总数据量, -s 参数配合du命令. 从最后的结果来看, 最后的结果显示略有差别, gzip压缩后的文件比原始文件稍大. 造成这种差别gzip再次压缩gz文件时文件头造成的. 经过测试发现在文件较大时, 其结果更令人满意. 文件较小时测试结果很令人费解, 显示相差巨大.

[root]tar -cf - cups-2.1.4-source.tar.gz | pv -L 10k -s $(du -sb cups-2.1.4-source.tar.gz | awk '{print $1}') | gzip > ../out.tgz
  70kiB 0:00:06 [10.1kiB/s] [=====================================] 103%  
[root]tar -cf - audit.gz | pv -L 1m -s $(du -sb audit.gz | awk '{print $1}') | gzip > out.tgz
1.55MiB 0:00:01 [1.03MiB/s] [====================================>] 100% 
[root]tar -cf - backup.tgz | pv -L 10k -s $(du -sb backup.tgz | awk '{print $1}') | gzip > out.tgz                                                                                            
  10kiB 0:00:00 [11.1kiB/s] [====================================>] 22755%
[root]tar -cf - audit.zip | pv -L 1m -s $(du -sb audit.zip | awk '{print $1}') | gzip > out.tgz            
1.25MiB 0:00:01 [1.02MiB/s] [====================================>] 100%

2.5 配置dialog显示进度条

通过-s参数指定数据总量, 进度条的显示应该就会先正确. dialog只接受标准输入的数字, 所以pv要使用-n参数输出数字比例, 同时pv的标准错误要重定向到标准输出中, dialog才能从标准输入接收到数据. gauge是进度条类型, 后续参数是描述信息, 进度条高度终端比率和长度终端比例.

tar -czf - ./down/ | (pv -L 10k -s 69705 -n > down.tgz) 2>&1 | dialog --gauge "Progress" 10 70

2.6 显示多个pv进度条

将gzip的源文件和目标文件都通过pv, 显示源读取和gzip输出目标的进度信息. 多个进度条时-c 参数必不可少, 防止进度条在更新时交叉覆盖, 虽然最后的效果和输出相同但是中间过程可能看不清楚. GzipDest管道数据流由于无法获取数据总量, 所以进度的显示会出现偏差, 还有部分显示内容无法计算. 在压缩过程中可以通过对rate进行计算, 就可以了解到大概的压缩比例 9.95/1.94.

-c 使用游标定位转义序列替换仅仅只使用回车, 与-N 联合使用时, 对处于单一长数据管道的多个pv很有效.

[root]pv -L 10k -cN GzipSour pv.man pvtest.dat | gzip | pv -cN GzipDest > pv.pvtest.gz
 GzipDest:    0 B 0:00:02 [   0 B/s] [<=>                                          ]
 GzipSour:   20kiB 0:00:02 [10.1kiB/s] [=================>         ] 67% ETA 0:00:00
[root]pv -L 10k -cN GzipSour pv.man pvtest.dat | gzip | pv -cN GzipDest > pv.pvtest.gz
 GzipDest: 5.79kiB 0:00:02 [1.94kiB/s] [<=>                                        ]
 GzipSour: 29.6kiB 0:00:02 [9.95kiB/s] [=========================>] 100%   
[root]pv -L 10k -N GzipSour pv.man pvtest.dat | gzip | pv -N GzipDest > pv.pvtest.gz  
GzipSour:   20kiB 0:00:02 [10.1kiB/s] [===================>       ] 67% ETA 0:00:00  

2.7 大量数据网络传输

假设有机器A, 地址128.160.171.181; 机器B, 地址128.160.64.115 首先要在机器B上面制造数据, 数据都处于同一个目录内, 利用tar和pv拷贝/usr/lib中的所有文件到upload目录, 可以通过这种方式看到进度信息.

[root]cd /tmp
[root]mkdir upload
[root]cd upload
[root]tar -C /usr/lib -cf - . | pv | tar -xf -
 299MB 0:00:01 [ 266MB/s] [      <=>             ]

在机器B上面发布nc命令并启动侦听端口6666, 然后会发现nc开始挂起, 等待连接. 在机器A开始发布命令时, 机器B也可以显示进度条, 显示数据的传输.

如果在机器A上面要看到进度条的完成比例, 可以使用du -sb upload计算数据总量.

[root]tar -cf - upload | pv | nc -l -p 6666
1.27GB 0:00:11 [ 110MB/s] [    <=>                    ]
[root]tar -cf - upload | pv -s $(du -sb upload | awk '{print $1}') | nc -l -p 6666  
1.27GiB 0:00:25 [51.3MiB/s] [====================================>] 101%

在机器A上面通过nc命令访问机器B和指定端口并通过tar解压缩文件, 可以看到此时数据开始传输并显示进度条.

[root]nc 128.160.171.181 6666 | pv | tar -xf -
1.27GB 0:00:11 [ 110MB/s] [    <=>                    ]

2.8 读写镜像文件

系统读/dev/zero设备, 并输出到标准输出的速率 系统读/dev/zero设备, 并输出到Null设备的速率

[root]  pv /dev/zero
169MiB 0:00:06 [28.5MiB/s] [      <=>                                             ]
[root]pv /dev/zero > /dev/null
15GiB 0:00:08 [6.58GiB/s] [       <=>                                             ]

制作一个磁盘的镜像, -E 忽略读错误, -EE 忽略并报告读错误 从磁盘镜像中恢复 清空磁盘

注意:如果输入数据量无法计算, 并且输出是一个块设备, 那么块设备的大小会用来作为输出总量, 即使指定了-S –stop-at-size选项, pv也会停在该位置.

pv -EE /dev/sda > disk-image.img
pv disk-image.img > /dev/sda
pv < /dev/zero > /dev/sda

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK