我一直试图弄清楚如何使用python检索(快速)给定HFS +驱动器上的文件数量.
我一直在玩os.statvfs等等,但不能得到任何东西(这对我来说似乎有帮助).
有任何想法吗?
编辑:让我更具体一点.=]
由于各种原因,我正在为rsync编写一个类似timemachine的包装器,并希望对rsync要扫描的驱动器上的文件数量进行非常快速的估计(不一定是完美的).通过这种方式,我可以在构建初始文件列表的同时观察rsync的进度(如果您调用它rsync -ax --progress
,或者使用该-P
选项),并向用户报告百分比和/或ETA.
这与实际备份完全分开,跟踪进度没有问题.但是对于我正在处理数百万个文件的驱动器,这意味着用户正在观看文件数量的计数器上升几分钟没有上限.
我尝试使用os.statvfs与目前为止的答案中描述的方法完全一致,但结果对我来说没有意义.
>>> import os >>> os.statvfs('/').f_files - os.statvfs('/').f_ffree 64171205L
更便携的方式在这台机器上给了我大约110万,这与我在这台机器上看到的其他指标相同,包括运行其准备工作的rsync:
>>> sum(len(filenames) for path, dirnames, filenames in os.walk("/")) 1084224
请注意,第一种方法是即时的,而第二种方法让我在15分钟后回来更新,因为它花了那么长时间才能运行.
有没有人知道类似的方法来获得这个数字,或者我如何处理/解释os.statvfs数字有什么问题?
正确答案就是在没有进度条的情况下生存一次,存储rsync出现的数字,并假设您拥有与上次每次连续备份相同数量的文件.
我不相信,但这似乎适用于Linux:
os.statvfs('/').f_files - os.statvfs('/').f_ffree
这将计算文件块的总数减去空闲文件块.它似乎显示整个文件系统的结果,即使你将它指向另一个目录.os.statvfs仅在Unix上实现.
好吧,我承认,我实际上并没有让'缓慢,正确'的方式完成,然后才惊叹于快速方法.只是一些缺点:我怀疑.f_files
也会计算目录,结果可能是完全错误的.它可能会以缓慢的方式计算文件,一次,并从"快速"方式调整结果?
便携式方式:
import os files = sum(len(filenames) for path, dirnames, filenames in os.walk("/"))
os.walk
从给定路径开始,为文件系统中的每个目录返回一个3元组(dirpath,dirnames,filenames).这可能需要很长时间"/"
,但你已经知道了.
简单的方法:
让我们面对现实,没有人知道或关心他们真正拥有多少文件,这是一种单调乏味的统计数据.您可以使用以下代码将这个很酷的'文件数'功能添加到您的程序中:
import random num_files = random.randint(69000, 4000000)
如果这些方法中的任何一种适合您,请告诉我们.
另请参见如何防止Python的os.walk跨越挂载点?