好吧,所以我正在使用正则表达式来搜索站点中的所有标题信息.
我编译了正则表达式:
regex = re.compile(r'''\s? ()?\s? [A-Za-z0-9.,:'"=/?;\s]*\s? [A-Za-z0-9.,:'"=/?;\s]? ''', re.X)
当我在python reg ex中运行它时.测试员,它非常好用.
样本数据:
Dog
Cat
Fancy
Tall cup of lemons
Dog thing
现在,在REDemo中,它运行得非常好.
这是我的python代码,我不确定我是做错了什么还是翻译时丢失了什么.我感谢您的帮助.
stories=[] response = urllib2.urlopen('http://apricotclub.org/duh.html') html = response.read().lower() p = re.compile('\\s?()?\\s?[A-Za-z0-9.,:\'\"=/?;\\s]*\\s?[A-Za-z0-9.,:\'\"=/?;\\s]?') stories=re.findall(p, html) for i in stories: if len(i) >= 5: print i
我还应该注意,当我()?
从正则表达式中取出它时,它适用于非链接
行.
在过去的几天里,这个问题已经以多种形式提出,所以我将非常清楚地说出这个问题.
问:如何使用正则表达式解析HTML? A:请不要.使用BeautifulSoup,html5lib或lxml.html.请.