当前位置:  开发笔记 > 编程语言 > 正文

Python过滤/删除列表中的URL

如何解决《Python过滤/删除列表中的URL》经验,为你挑选了4个好方法。

我有一个URL的文本文件,大约14000.以下是几个例子:

http://www.domainname.com/pagename?CONTENT_ITEM_ID=100m2=123
http://www.domainname.com/images?IMAGE_ID=10
http://www.domainname.com/pagename?CONTENT_ITEM_ID=101m2=123
http ://www.domainname.com/images?IMAGE_ID = 11
http://www.domainname.com/pagename?CONTENT_ITEM_ID=102m2=123

我已将文本文件加载到Python列表中,并且我尝试将所有与CONTENT_ITEM_ID分隔开的URL分离为自己的列表.在Python中执行此操作的最佳方法是什么?

干杯



1> bobince..:

这是Graeme的另一种替代方法,使用更新的列表解析语法:

list2= [line for line in file if 'CONTENT_ITEM_ID' in line]

您更喜欢的是味道问题!



2> Blair Conrad..:

我喜欢@ bobince的答案(+1),但会提高赌注.

由于您有一个相当大的起始集,您可能希望避免将整个列表加载到内存中.除非您需要其他内容的整个列表,否则您可以使用Python生成器表达式通过逐项构建已过滤的列表来执行相同的任务:

for filtered_url in (line for line in file if 'CONTENT_ITEM_ID' in line):
   do_something_with_filtered_url(filtered_url)



3> Graeme Perro..:
list2 = filter( lambda x: x.find( 'CONTENT_ITEM_ID ') != -1,  list1 )

过滤器调用list1(第二个参数)的每个元素上的函数(第一个参数).如果函数返回true(非零),则将元素复制到输出列表.

lambda基本上创建了一个临时的未命名函数.这只是为了避免必须创建一个函数然后传递它,如下所示:

function look_for_content_item_id( elem ):
    if elem.find( 'CONTENT_ITEM_ID') == -1:
        return 0
    return 1
list2 = filter( look_for_content_item_id, list1 )



4> Markus Jarde..:

为了完整; 你也可以使用ifilter.它就像过滤器,但没有建立一个列表.

from itertools import ifilter

for line in ifilter(lambda line: 'CONTENT_ITEM_ID' in line, urls):
    do_something(line)

推荐阅读
手机用户2402851155
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有