7赞

有效地处理文本文件中的数据

作者：Life一切安好 | 2023-09-11 10:00

如何解决《有效地处理文本文件中的数据》经验，为你挑选了2个好方法。

让我们假设我有一个(文本)文件具有以下结构(名称,分数):

 a         0
 a         1
 b         0
 c         0
 d         3
 b         2

等等.我的目标是将每个名字的分数相加,并从最高分到最低分.所以在这种情况下,我想要以下输出:

 d         3
 b         2
 a         1
 c         0

事先我不知道文件中会有什么名字.

我想知道是否有一种有效的方法来做到这一点.我的文本文件最多可包含50,000个条目.

我能想到的唯一方法就是从第1行开始,记住该名称,然后查看整个文件以查找该名称和总和.这看起来非常低效,所以我想知道是否有更好的方法来做到这一点.

1> Mike Müller..：

将所有数据读入字典:

from collections import defaultdict
from operator import itemgetter

scores = defaultdict(int)
with open('my_file.txt') as fobj:
    for line in fobj:
        name, score = line.split()
        scores[name] += int(score)

和排序:

for name, score in sorted(scores.items(), key=itemgetter(1), reverse=True):
    print(name, score)

打印:

d 3
b 2
a 1
c 0

性能

为了检查这个答案与@SvenMarnach的答案的性能,我将两种方法都放入一个函数中.这fobj是一个打开阅读的文件.我使用io.StringIO这样的IO延迟应该,希望不被测量:

from collections import Counter

def counter(fobj):
    scores = Counter()
    fobj.seek(0)
    for line in fobj:
        key, score = line.split()
        scores.update({key: int(score)})
    return scores.most_common()

from collections import defaultdict
from operator import itemgetter

def default(fobj):
    scores = defaultdict(int)
    fobj.seek(0)
    for line in fobj:
        name, score = line.split()
        scores[name] += int(score)
    return sorted(scores.items(), key=itemgetter(1), reverse=True)

结果collections.Counter:

%timeit counter(fobj)
10000 loops, best of 3: 59.1 µs per loop

结果collections.defaultdict:

%timeit default(fobj)
10000 loops, best of 3: 15.8 µs per loop

看起来defaultdict快了四倍.我不会猜到这一点.但是在性能方面你需要衡量.

@IronFist是的,这就是`itemgetter`的作用.这个名字比阅读`lambda`函数更直观.

2> Sven Marnach..：

这是一个很好的用例collections.Counter:

from collections import Counter

scores = Counter()
with open('my_file') as f:
    for line in f:
        key, score = line.split()
        scores.update({key: int(score)})

for key, score in scores.most_common():
    print(key, score)

推荐阅读

程序员
使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`

如何解决《使用`ShouldBeEquivalentTo`,`ShouldAllBeEquivalentTo`和`BeEquivalentTo`》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python请求:标头名称无效

如何解决《Python请求:标头名称无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
Appinvite_styles.xml:5:错误将Google Play服务库包含在eclipse中

如何解决《Appinvite_styles.xml:5:错误将GooglePlay服务库包含在eclipse中》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow教程:输入管道中的重复混洗

如何解决《Tensorflow教程:输入管道中的重复混洗》经验，为你挑选了1个好方法。 ... [详细]
程序员
g ++和clang ++ - 删除由重载转换运算符歧义获取的指针

如何解决《g++和clang++-删除由重载转换运算符歧义获取的指针》经验，为你挑选了1个好方法。 ... [详细]
程序员
django,属性更新模型实例

如何解决《django,属性更新模型实例》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用JavaScript进行多项左手分配,真的是正确的关联吗？

如何解决《使用JavaScript进行多项左手分配,真的是正确的关联吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Rails中为link_to方法发送特定变量值

如何解决《在Rails中为link_to方法发送特定变量值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何区分火花中的操作是转换还是动作？

如何解决《如何区分火花中的操作是转换还是动作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
企业服务总线与BPM

如何解决《企业服务总线与BPM》经验，为你挑选了1个好方法。 ... [详细]
程序员
RStudio shiny runApp在工作目录中失败

如何解决《RStudioshinyrunApp在工作目录中失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
AsyncStorage数据在Android设备上的物理位置在哪里？

如何解决《AsyncStorage数据在Android设备上的物理位置在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Android.mk应该在哪里？

如何解决《Android.mk应该在哪里？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为SSL配置SSRS

如何解决《为SSL配置SSRS》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找表 - 自然或代理键作为主键？

如何解决《查找表-自然或代理键作为主键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ATMEGA168A-F_CPU警告

如何解决《ATMEGA168A-F_CPU警告》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用F#在类/接口中动态定义多个成员

如何解决《使用F#在类/接口中动态定义多个成员》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重新启动pyqt应用程序？

如何解决《如何重新启动pyqt应用程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
代码合同.net - 替代品

如何解决《代码合同.net-替代品》经验，为你挑选了1个好方法。 ... [详细]
程序员
从std :: enable_shared_from_this和抽象基类派生是否可以？

如何解决《从std::enable_shared_from_this和抽象基类派生是否可以？》经验，为你挑选了0个好方法。 ... [详细]

Life一切安好

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章