6赞

分解HTML以链接文本和目标

作者：TXCWB_523 | 2023-09-02 20:53

如何解决《分解HTML以链接文本和目标》经验，为你挑选了2个好方法。

给出像这样的HTML链接

texttxt

我该如何隔离网址和文字？

更新

我正在使用Beautiful Soup,我无法弄清楚如何做到这一点.

我做到了

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))

links = soup.findAll('a')

for link in links:
    print "link content:", link.content," and attr:",link.attrs

我明白了

*link content: None  and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root    /support.asp')]*  ...
...

为什么我错过了内容？

编辑:详细说明'卡住'建议:)

1> Harley Holco..：

使用美丽的汤.自己做比看起来更难,你最好使用经过试验和测试的模块.

编辑:

我想你想要:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read())

顺便说一下,尝试在那里打开URL是一个坏主意,就好像它出错了它可能会变得丑陋.

编辑2:

这应该显示页面中的所有链接:

import urlparse, urllib
from BeautifulSoup import BeautifulSoup

url = "http://www.example.com/index.html"
source = urllib.urlopen(url).read()

soup = BeautifulSoup(source)

for item in soup.fetchall('a'):
    try:
        link =  urlparse.urlparse(item['href'].lower())
    except:
        # Not a valid link
        pass
    else:
        print link

2> Jerub..：

这是一个代码示例,显示了获取链接的属性和内容:

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
for link in soup.findAll('a'):
    print link.attrs, link.contents

推荐阅读

程序员
具有元组条件的QueryDSL和SubQuery

如何解决《具有元组条件的QueryDSL和SubQuery》经验，为你挑选了0个好方法。 ... [详细]
程序员
来自python worker的错误:/ bin/python:没有名为pyspark的模块

如何解决《来自pythonworker的错误:/bin/python:没有名为pyspark的模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在std :: shared_ptr实现中需要两个指向托管对象的原始指针？

如何解决《为什么在std::shared_ptr实现中需要两个指向托管对象的原始指针？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ArrayList与HashSet中的removeAll()

如何解决《ArrayList与HashSet中的removeAll()》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xamarin.Forms中的Android WebView上启用本地存储

如何解决《如何在Xamarin.Forms中的AndroidWebView上启用本地存储》经验，为你挑选了1个好方法。 ... [详细]
程序员
启用节点加密后,Cassandra节点无法看到对方

如何解决《启用节点加密后,Cassandra节点无法看到对方》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Gin Web框架将参数传递给Golang中的路由器处理程序？

如何解决《如何使用GinWeb框架将参数传递给Golang中的路由器处理程序？》经验，为你挑选了2个好方法。 ... [详细]
程序员
可以测试Job DSL脚本

如何解决《可以测试JobDSL脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用反射设置C#struct/class字段时是否可以避免装箱？

如何解决《使用反射设置C#struct/class字段时是否可以避免装箱？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么ngTable不接受我的数据集？

如何解决《为什么ngTable不接受我的数据集？》经验，为你挑选了1个好方法。 ... [详细]
程序员
javax.ws.rs.core.Cookie vs javax.ws.rs.core.NewCookie,有什么区别？

如何解决《javax.ws.rs.core.Cookievsjavax.ws.rs.core.NewCookie,有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2 Doctrine错误:无法计算使用HAVING子句的查询.使用输出步行器进行分页

如何解决《Symfony2Doctrine错误:无法计算使用HAVING子句的查询.使用输出步行器进行分页》经验，为你挑选了1个好方法。 ... [详细]
程序员
.NET多线程访问共享登录会话

如何解决《.NET多线程访问共享登录会话》经验，为你挑选了0个好方法。 ... [详细]
程序员
Linux服务器显示UTC而不是EST,本地显示EST

如何解决《Linux服务器显示UTC而不是EST,本地显示EST》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以在Windows 10中安装IE7和IE8吗？

如何解决《我可以在Windows10中安装IE7和IE8吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
仅在登录时使用wordpress PHP代码

如何解决《仅在登录时使用wordpressPHP代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
MATLAB:如何清理这个"if"块？

如何解决《MATLAB:如何清理这个"if"块？》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查Eigen :: Matrix的任何元素是否与零不同

如何解决《检查Eigen::Matrix的任何元素是否与零不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
右键单击上下文菜单中无法使用tortoisegit clone选项

如何解决《右键单击上下文菜单中无法使用tortoisegitclone选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
LocalCache和TempState应用程序数据文件夹之间有什么区别(以及相似性)？

如何解决《LocalCache和TempState应用程序数据文件夹之间有什么区别(以及相似性)？》经验，为你挑选了1个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章