当前位置:  开发笔记 > 编程语言 > 正文

在python中使用正则表达式的问题

如何解决《在python中使用正则表达式的问题》经验,为你挑选了1个好方法。

好吧,所以我正在使用正则表达式来搜索站点中的所有标题信息.

我编译了正则表达式:

regex = re.compile(r'''
    \s?
    ()?\s?
    [A-Za-z0-9.,:'"=/?;\s]*\s?
    [A-Za-z0-9.,:'"=/?;\s]?
''',  re.X)

当我在python reg ex中运行它时.测试员,它非常好用.

样本数据:


    

Dog

Cat

Fancy

Tall cup of lemons

Dog thing

现在,在REDemo中,它运行得非常好.

但是,当我把它放在我的python代码中时,它只会打印出来

这是我的python代码,我不确定我是做错了什么还是翻译时丢失了什么.我感谢您的帮助.

stories=[]
response = urllib2.urlopen('http://apricotclub.org/duh.html')
html = response.read().lower()
p = re.compile('\\s?()?\\s?[A-Za-z0-9.,:\'\"=/?;\\s]*\\s?[A-Za-z0-9.,:\'\"=/?;\\s]?')
stories=re.findall(p, html)
for i in stories:
    if len(i) >= 5:
        print i 

我还应该注意,当我()?从正则表达式中取出它时,它适用于非链接行.



1> Jerub..:

在过去的几天里,这个问题已经以多种形式提出,所以我将非常清楚地说出这个问题.

问:如何使用正则表达式解析HTML? A:请不要.

使用BeautifulSoup,html5lib或lxml.html.请.

推荐阅读
手机用户2502852037
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有