我有一个large.tar.gz
包含大约100万个文件的文件,其中大约1/4是html文件,我想解析其中每个html文件的几行.
我想避免必须将大量的内容解压缩large.tar.gz
到一个文件夹,然后解析html文件,而我想知道如何在large.tar.gz
直接管道html文件的内容,STDOUT
以便我可以grep /解析出来我想要他们的信息?
我认为必须有一些魔术:
tar -special_flags large.tar.gz | grep_only_files_with_extension html | xargs -n1 head -n 99999 | ./parse_contents.pl -
有任何想法吗?
将此与GNU tar一起使用以将tgz提取到stdout:
tar -xOzf large.tar.gz --wildcards '*.html' | grep ...
-O, --to-stdout
:将文件提取到标准输出