当前位置:  开发笔记 > 编程语言 > 正文

使用正则表达式从HTML中的Url中删除查询字符串

如何解决《使用正则表达式从HTML中的Url中删除查询字符串》经验,为你挑选了1个好方法。

给定一个html文档,从文档中的每个url中删除查询字符串的最正确和简洁的正则表达式模式是什么?



1> bobince..:

您无法使用正则表达式有用地解析HTML.如果您事先知道页面的格式 - 例如.

链接总是以的形式,或者

所有链接都是绝对的,并且不存在以http:开头的其他非链接字符串

那么你可以侥幸逃脱它,但对于一般[X] HTML,正则表达式解析器是不合适的.

根据您使用的语言,您需要找到HTML解析器库(例如Python的BeautifulSoup),或者结合标准XML解析器的HTML整理器,然后扫描文档中的元素(也许其他的,例如.如果你对这些感兴趣吗?),那么将属性值拆分为'?'.

推荐阅读
我我檬檬我我186
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有