3赞

在Python中,是否有一种简洁的方法来比较两个文本文件的内容是否相同？

作者：pan2502851807 | 2023-09-03 13:26

如何解决《在Python中,是否有一种简洁的方法来比较两个文本文件的内容是否相同？》经验，为你挑选了4个好方法。

我不在乎差异是什么.我只是想知道内容是否不同.

1> Federico A. ..：

低级方式:

from __future__ import with_statement
with open(filename1) as f1:
   with open(filename2) as f2:
      if f1.read() == f2.read():
         ...

高层次的方式:

import filecmp
if filecmp.cmp(filename1, filename2, shallow=False):
   ...

我纠正了你的filecmp.cmp调用,因为如果没有非真正的浅层参数,它就不会执行问题所要求的操作.

如果文件很大,这可能会有问题.如果你做的第一件事是比较文件大小,你可以节省计算机的一些努力.如果尺寸不同,显然文件是不同的.如果大小相同,您只需要读取文件.

你是对的.http://www.python.org/doc/2.5.2/lib/module-filecmp.html.非常感谢你.

我刚刚发现`filecmp.cmp（）`还比较元数据，例如inode数和ctime以及其他统计信息。在我的用例中，这是不可取的。如果您只想比较内容而不比较元数据，则`f1.read（）== f2.read（）`可能是一种更好的方法。

2> Rich..：

如果你想提高基本效率,你可能想先检查文件大小:

if os.path.getsize(filename1) == os.path.getsize(filename2):
  if open('filename1','r').read() == open('filename2','r').read():
    # Files are the same.

这样可以节省您读取两个文件大小相同的每一行,因此不能相同.

(更进一步,你可以调用每个文件的快速MD5sum并比较它们,但这不是"在Python中",所以我会在这里停止.)

当您考虑文件不相同的情况时尤其如此.按块比较可以提前纾困,但md5sum必须继续读取整个文件.

md5sum方法只需要2个文件就会变慢(你仍然需要读取文件来计算总和).当你在几个文件中寻找重复时,它只会得到回报.

没有理由期望md5sum的文件读取速度比python快 - IO非常独立于语言.大文件问题是迭代块(或使用filecmp)的原因,而不是使用md5,你不必要额外支付额外的CPU罚款.

3> tzot..：

这是一个功能风格的文件比较功能.如果文件大小不同,它立即返回False; 否则,它读入4KiB块大小并在第一个差异时立即返回False:

from __future__ import with_statement
import os
import itertools, functools, operator

def filecmp(filename1, filename2):
    "Do the two files have exactly the same contents?"
    with open(filename1, "rb") as fp1, open(filename2, "rb") as fp2:
        if os.fstat(fp1.fileno()).st_size != os.fstat(fp2.fileno()).st_size:
            return False # different sizes ? not equal
        fp1_reader= functools.partial(fp1.read, 4096)
        fp2_reader= functools.partial(fp2.read, 4096)
        cmp_pairs= itertools.izip(iter(fp1_reader, ''), iter(fp2_reader, ''))
        inequalities= itertools.starmap(operator.ne, cmp_pairs)
        return not any(inequalities)

if __name__ == "__main__":
    import sys
    print filecmp(sys.argv[1], sys.argv[2])

只是一个不同的采取:)

4> 小智..：

由于我不能评论别人的答案,我会写自己的.

如果你使用md5,你肯定不能只是md5.update(f.read()),因为你会使用太多的内存.

def get_file_md5(f, chunk_size=8192):
    h = hashlib.md5()
    while True:
        chunk = f.read(chunk_size)
        if not chunk:
            break
        h.update(chunk)
    return h.hexdigest()

@Jeremy Cantrell:一个计算哈希值,当它们被缓存/存储,或者与缓存/存储的哈希值进行比较时.否则,只需比较字符串.无论硬件是什么,str1!= str2都比md5.new(str1).digest()!= md5.new(str2).digest()快.哈希也有碰撞(不太可能但不是不可能).

推荐阅读

程序员
Java switch语句 - 行为混乱

如何解决《Javaswitch语句-行为混乱》经验，为你挑选了1个好方法。 ... [详细]
程序员
打字稿：确保泛型具有特定属性

如何解决《打字稿：确保泛型具有特定属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在groupBy之后将值聚合到集合中？

如何解决《如何在groupBy之后将值聚合到集合中？》经验，为你挑选了2个好方法。 ... [详细]
程序员
IdentityServer 3使用刷新令牌刷新用户

如何解决《IdentityServer3使用刷新令牌刷新用户》经验，为你挑选了0个好方法。 ... [详细]
程序员
SoundCloud API v3 Stream无法在Chrome中运行

如何解决《SoundCloudAPIv3Stream无法在Chrome中运行》经验，为你挑选了0个好方法。 ... [详细]
程序员
将VS2015更新为Update 1后,Changeset注释策略中的内部错误

如何解决《将VS2015更新为Update1后,Changeset注释策略中的内部错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在某些情况下,Signal(Int,Int)不被识别为(Int,Int)元组

如何解决《在某些情况下,Signal(Int,Int)不被识别为(Int,Int)元组》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取所有maven依赖项,包括插件依赖项

如何解决《获取所有maven依赖项,包括插件依赖项》经验，为你挑选了0个好方法。 ... [详细]
程序员
IoC容器映射:单例与每次调用创建

如何解决《IoC容器映射:单例与每次调用创建》经验，为你挑选了0个好方法。 ... [详细]
程序员
在opencv-python中检测星形

如何解决《在opencv-python中检测星形》经验，为你挑选了0个好方法。 ... [详细]
程序员
Amazon RDS中的lower_case_table_names设置

如何解决《AmazonRDS中的lower_case_table_names设置》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么出口/进口申报必须在2015年达到顶级水平？

如何解决《为什么出口/进口申报必须在2015年达到顶级水平？》经验，为你挑选了1个好方法。 ... [详细]
程序员
chrome webview中出现"不支持的ABI"错误

如何解决《chromewebview中出现"不支持的ABI"错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用$ rootscope显示和隐藏

如何解决《使用$rootscope显示和隐藏》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用python中的openpyxl读取存储在sharepoint位置的xlsx？

如何解决《使用python中的openpyxl读取存储在sharepoint位置的xlsx？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法使用python子进程模块使用*运行shell命令

如何解决《无法使用python子进程模块使用*运行shell命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
熊猫改变了数据帧结构

如何解决《熊猫改变了数据帧结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Swift中执行一次代码只执行一次？

如何解决《如何在Swift中执行一次代码只执行一次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用SharedElement在活动转换中崩溃

如何解决《使用SharedElement在活动转换中崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
在数组上使用AsEnumerable()有什么用？

如何解决《在数组上使用AsEnumerable()有什么用？》经验，为你挑选了2个好方法。 ... [详细]

pan2502851807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章