当前位置:  开发笔记 > 编程语言 > 正文

用Python切片URL

如何解决《用Python切片URL》经验,为你挑选了1个好方法。

我正在处理一个庞大的URL列表.只是一个简单的问题我试图将URL的一部分切出来,见下文:

http://www.domainname.com/page?CONTENT_ITEM_ID=1234¶m2¶m3

我怎么能切出来:

http://www.domainname.com/page?CONTENT_ITEM_ID=1234

有时在CONTENT_ITEM_ID之后有两个以上的参数,并且ID每次都不同,我认为可以通过找到第一个&然后在此之前切掉字符来完成,并且不太确定如何执行此操作.

干杯



1> tzot..:

使用urlparse模块.检查此功能:

import urlparse

def process_url(url, keep_params=('CONTENT_ITEM_ID=',)):
    parsed= urlparse.urlsplit(url)
    filtered_query= '&'.join(
        qry_item
        for qry_item in parsed.query.split('&')
        if qry_item.startswith(keep_params))
    return urlparse.urlunsplit(parsed[:3] + (filtered_query,) + parsed[4:])

在你的例子中:

>>> process_url(a)
'http://www.domainname.com/page?CONTENT_ITEM_ID=1234'

如果您决定还需要更多查询参数,或者如果参数的顺序不固定,则此函数还有一个额外的好处,就是它更容易使用,如:

>>> url='http://www.domainname.com/page?other_value=xx¶m3&CONTENT_ITEM_ID=1234¶m1'
>>> process_url(url, ('CONTENT_ITEM_ID', 'other_value'))
'http://www.domainname.com/page?other_value=xx&CONTENT_ITEM_ID=1234'

推荐阅读
围脖上的博博_771
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有