11赞

如何使用文件中的生成器进行标记化而不是实现字符串列表？

作者：sx-March23 | 2023-09-08 15:40

如何解决《如何使用文件中的生成器进行标记化而不是实现字符串列表？》经验，为你挑选了0个好方法。

我有2个文件:

hyp.txt

It is a guide to action which ensures that the military always obeys the commands of the party
he read the book because he was interested in world history

ref.txt

It is a guide to action that ensures that the military will forever heed Party commands
he was interested in world history because he read the book

我有一个函数可以进行一些计算来比较文本的行,例如hyp.txt的第1行和ref.txt的第1行.

def scorer(list_of_tokenized_hyp, list_of_tokenized_ref):
   """
   :type list_of_tokenized_hyp: iter(iter(str))
   :type list_of_tokenized_ref: iter(iter(str))
   """   
   for hypline, refline in zip(list_of_tokenized_hyp, list_of_tokenized_ref):
       # do something with the iter(str)
   return score

并且此功能无法更改.然而,我可以操纵我提供的功能.所以目前我正在将文件输入到这样的函数中:

with open('hyp.txt', 'r') as hypfin, open('ref.txt', 'r') as reffin:
    hyp = [line.split() for line in hypfin]
    ref = [line.split() for line in reffin]
    scorer(hypfin, reffin)

但通过这样做,我已经将整个文件和拆分字符串加载到内存中,然后将其输入到内存中scorer().

知道scorer()正在逐行处理文件,有没有办法在不改变scorer()函数的情况下输入函数之前实现拆分字符串？

有没有办法喂养某种发电机呢？

我试过这个:

with open('hyp.txt', 'r') as hypfin, open('ref1.txt', 'r') as ref1fin, open('ref2.txt', 'r') as ref2fin:
    hyp = (h.split() for h in hypline)
    ref = (r.split() for r in hypline)
    scorer(hypfin, reffin)

但我不确定这是否h.split()已经实现.如果它已经实现,为什么？如果没有,为什么？

如果我可以更改scorer()功能,那么我可以在以下之后轻松添加此行for:

def scorer(list_of_tokenized_hyp, list_of_tokenized_ref):
   for hypline, refline in zip(list_of_tokenized_hyp, list_of_tokenized_ref):
       hypline = hypline.split()
       refline = refline.split()
       # do something with the iter(str)
   return score

但在我的情况下这是不可能的,因为我不能改变这个功能.

推荐阅读

程序员
data.table - 以编程方式删除列

如何解决《data.table-以编程方式删除列》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于python.config中的YAML错误,部署到AWS EB失败

如何解决《由于python.config中的YAML错误,部署到AWSEB失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode Interface Builder为所有文件显示"No selection"

如何解决《XcodeInterfaceBuilder为所有文件显示"Noselection"》经验，为你挑选了4个好方法。 ... [详细]
程序员
如何使用重复创建带有可选参数的Rust宏？

如何解决《如何使用重复创建带有可选参数的Rust宏？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Cordova/Angular JS从用户位置获取地址

如何解决《使用Cordova/AngularJS从用户位置获取地址》经验，为你挑选了1个好方法。 ... [详细]
程序员
jVectorMaps图像标记

如何解决《jVectorMaps图像标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
用正方形构建金字塔的算法

如何解决《用正方形构建金字塔的算法》经验，为你挑选了1个好方法。 ... [详细]
程序员
d == 9000000000000000000d无限循环

如何解决《d==9000000000000000000d无限循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
获得范围内频率平均值的最快方法

如何解决《获得范围内频率平均值的最快方法》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何检查T是否是泛型方法中的对象列表

如何解决《如何检查T是否是泛型方法中的对象列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
node.js opc ua许多受监控的项目

如何解决《node.jsopcua许多受监控的项目》经验，为你挑选了0个好方法。 ... [详细]
程序员
Mvc完成异步脚本加载

如何解决《Mvc完成异步脚本加载》经验，为你挑选了0个好方法。 ... [详细]
程序员
Chrome for IOS CORS

如何解决《ChromeforIOSCORS》经验，为你挑选了0个好方法。 ... [详细]
程序员
`std :: shared_ptr`的自动循环断路器的可行性

如何解决《`std::shared_ptr`的自动循环断路器的可行性》经验，为你挑选了2个好方法。 ... [详细]
程序员
在调试时,我可以从浏览器控制台访问Redux存储吗？

如何解决《在调试时,我可以从浏览器控制台访问Redux存储吗？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何使用API在pod(kubernetes)中执行命令？

如何解决《如何使用API在pod(kubernetes)中执行命令？》经验，为你挑选了0个好方法。 ... [详细]
程序员
即使在使用pack()之后,winfo_width()也返回1

如何解决《即使在使用pack()之后,winfo_width()也返回1》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数据库导入DataGrip(0xDBE)

如何解决《将数据库导入DataGrip(0xDBE)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在SQL Server 2008中将数据转换为json格式？

如何解决《如何在SQLServer2008中将数据转换为json格式？》经验，为你挑选了0个好方法。 ... [详细]
程序员
行尾(GNU文档)

如何解决《行尾(GNU文档)》经验，为你挑选了1个好方法。 ... [详细]

sx-March23

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章