当前位置:  开发笔记 > 编程语言 > 正文

分解HTML以链接文本和目标

如何解决《分解HTML以链接文本和目标》经验,为你挑选了2个好方法。

给出像这样的HTML链接

texttxt

我该如何隔离网址和文字?

更新

我正在使用Beautiful Soup,我无法弄清楚如何做到这一点.

我做到了

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

links = soup.findAll('a')

for link in links:
    print "link content:", link.content," and attr:",link.attrs

我明白了

*link content: None  and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root    /support.asp')]*  ...
...

为什么我错过了内容?

编辑:详细说明'卡住'建议:)



1> Harley Holco..:

使用美丽的汤.自己做比看起来更难,你最好使用经过试验和测试的模块.

编辑:

我想你想要:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read())

顺便说一下,尝试在那里打开URL是一个坏主意,就好像它出错了它可能会变得丑陋.

编辑2:

这应该显示页面中的所有链接:

import urlparse, urllib
from BeautifulSoup import BeautifulSoup

url = "http://www.example.com/index.html"
source = urllib.urlopen(url).read()

soup = BeautifulSoup(source)

for item in soup.fetchall('a'):
    try:
        link =  urlparse.urlparse(item['href'].lower())
    except:
        # Not a valid link
        pass
    else:
        print link



2> Jerub..:

这是一个代码示例,显示了获取链接的属性和内容:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
for link in soup.findAll('a'):
    print link.attrs, link.contents

推荐阅读
TXCWB_523
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有