2赞

python 如何获取页面所有a标签下href的值

作者：wangtao | 2022-10-14 16:21

这篇文章主要介绍了python获取页面所有a标签下href的值操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

看代码吧~

# -*- coding:utf-8 -*-
#python 2.7
#http://tieba.baidu.com/p/2460150866
#标签操作 
 
from bs4 import BeautifulSoup
import urllib.request
import re 
 
#如果是网址，可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc)  
#webpage = urllib.request.urlopen(req)  
#html = webpage.read() 
 
html="""
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
Lacie
and they lived at the bottom of a well.
...
"""
soup = BeautifulSoup(html, 'html.parser')   #文档对象 
 
#查找a标签,只会查找出一个a标签
#print(soup.a)#
 
for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string

如果，标签中含有其他标签，比如..，此时要提取中的数据，需要用k.get_text()

soup = BeautifulSoup(html, 'html.parser')   #文档对象
#查找a标签,只会查找出一个a标签
for k in soup.find_all('a'):
    print(k)
    print(k['class'])#查a标签的class属性
    print(k['id'])#查a标签的id值
    print(k['href'])#查a标签的href值
    print(k.string)#查a标签的string

如果，标签中含有其他标签，比如..，此时要提取中的数据，需要用k.get_text()

通常我们使用下面这种模式也是能够处理的，下面的方法使用了get()。

 html = urlopen(url)
 soup = BeautifulSoup(html, 'html.parser')
 t1 = soup.find_all('a')
 print t1
 href_list = []
 for t2 in t1:
    t3 = t2.get('href')
    href_list.append(t3)

补充：python爬虫获取任意页面的标签和属性（包括获取a标签的href属性）

看代码吧~

# coding=utf-8 
from bs4 import BeautifulSoup 
import requests 
# 定义一个获取url页面下label标签的attr属性的函数 
def getHtml(url, label, attr): 
    response = requests.get(url) 
    response.encoding = 'utf-8' 
    html = response.text 
    soup = BeautifulSoup(html, 'html.parser'); 
    for target in soup.find_all(label):
 
        try: 
            value = target.get(attr)
 
        except: 
            value = ''
 
        if value: 
            print(value)
 
url = 'https://baidu.com/' 
label = 'a' 
attr = 'href' 
getHtml(url, label, attr)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

推荐阅读

程序员
R - 当我绘制xts和zoo对象时,如何更改日期格式？

如何解决《R-当我绘制xts和zoo对象时,如何更改日期格式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有格式化程序的Python日志记录模块会导致AttributeError

如何解决《具有格式化程序的Python日志记录模块会导致AttributeError》经验，为你挑选了1个好方法。 ... [详细]
程序员
与HashMap序列化的NotSerializableException

如何解决《与HashMap序列化的NotSerializableException》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Akka HTTP中将`text/plain`解组为JSON

如何解决《如何在AkkaHTTP中将`text/plain`解组为JSON》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何解决编译器枚举重新声明冲突

如何解决《如何解决编译器枚举重新声明冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据课程对<div>执行操作

如何解决《根据课程对<div>执行操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
application.cfc的问题显示数据源的消息"变量PRIMARYDATASOURCE未定义"

如何解决《application.cfc的问题显示数据源的消息"变量PRIMARYDATASOURCE未定义"》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用带有HttpComponentsClientHttpRequestFactory和RestTemplate的Proxy

如何解决《使用带有HttpComponentsClientHttpRequestFactory和RestTemplate的Proxy》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用header参数发送HTTP请求？

如何解决《如何使用header参数发送HTTP请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel限制字符 - PHP

如何解决《Laravel限制字符-PHP》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用`threadDelay`时系统调用量过大

如何解决《使用`threadDelay`时系统调用量过大》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用SQL在一个主键中创建2个字段？

如何解决《如何使用SQL在一个主键中创建2个字段？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CreateView的form_valid方法中引发错误

如何解决《如何在CreateView的form_valid方法中引发错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式4非连续且没有重复数字

如何解决《正则表达式4非连续且没有重复数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为多个项目设置Pycharm

如何解决《如何为多个项目设置Pycharm》经验，为你挑选了2个好方法。 ... [详细]
程序员
C#表单身份验证.ASPXAUTH Cookie用于SSO

如何解决《C#表单身份验证.ASPXAUTHCookie用于SSO》经验，为你挑选了0个好方法。 ... [详细]
程序员
MVC 6 WebFarm:无法解密防伪令牌

如何解决《MVC6WebFarm:无法解密防伪令牌》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过绑定设置文本时,TextBox删除按钮(小x)不可见

如何解决《通过绑定设置文本时,TextBox删除按钮(小x)不可见》经验，为你挑选了0个好方法。 ... [详细]
程序员
Nvcc的版本与CUDA不同

如何解决《Nvcc的版本与CUDA不同》经验，为你挑选了0个好方法。 ... [详细]
程序员
不引人注目的JQuery验证在弹出的PartialViews中不起作用

如何解决《不引人注目的JQuery验证在弹出的PartialViews中不起作用》经验，为你挑选了1个好方法。 ... [详细]

wangtao

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章