19赞

用Dryscrape和BeautifulSoup刮网

作者：地之南_816 | 2023-09-06 14:24

如何解决《用Dryscrape和BeautifulSoup刮网》经验，为你挑选了1个好方法。

我正在尝试从Yahoo抓取一些数据。我写了一个可行的脚本-在某些时候。有时，当我运行脚本时，我能够下载整个页面-有时，页面仅被部分加载-缺少数据部分。

更令人困惑的是，当我在浏览器中导航到该页面时，将显示整个页面。

这是我的代码的要点：

import dryscrape
from bs4 import BeautifulSoup

url =  'http://finance.yahoo.com/quote/SPY/options?p=SPY&straddle=false'

sess = dryscrape.Session()

sess.set_header('user-agent', 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0')

sess.set_attribute('auto_load_images', False)          
sess.set_timeout(360)

sess.visit(url)

soup = BeautifulSoup(sess.body(), 'lxml')

# Related to memory leak issue in webkit
sess.reset()

# Barfs (sometimes!) at the line below
sel_list = soup.find('select', class_='Fz(s)')

if sel_list is None or len(sel_list) == 0:
    print('element not found on page!')

我已附上以下页面的图像。这是通过Web浏览器在Internet上查看时的网页：

现在，这是我通过类似于上面显示的脚本下拉的页面-它没有数据！：

任何人都可以弄清楚为什么在我的脚本中获取数据时有时会丢失该元素的原因吗？同样（更多？）重要的是，我该如何解决？

1> alecxe..：

您可能需要等待数据加载之后才能使用进行解析BeautifulSoup。在dryscrape等待中可以通过wait_for()函数来完成：

sess.visit(url)

# waiting for the first data row in a table to be present
sess.wait_for(lambda: session.at_css("tr.data-row0"))

soup = BeautifulSoup(sess.body(), 'lxml')

或者，在黑暗中开枪：这也可能是暂时性的（网络？）问题，您可以通过循环刷新页面直到看到结果来解决此问题，方法如下：

from dryscrape.mixins import WaitTimeoutError 

ATTEMPTS_COUNT = 5
attempts = 0

while attempts <= ATTEMPTS_COUNT:
    sess.visit(url)

    try:
        # waiting for the first data row in a table to be present
        sess.wait_for(lambda: session.at_css("tr.data-row0"))
        break
    except WaitTimeoutError:
        print("Data row has not appeared, retrying...")
        attempts += 1

soup = BeautifulSoup(sess.body(), 'lxml')

推荐阅读

程序员
将命令行字符串解析为Golang中的标志和参数

如何解决《将命令行字符串解析为Golang中的标志和参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
json用jq重新映射

如何解决《json用jq重新映射》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取事件查看器条目

如何解决《读取事件查看器条目》经验，为你挑选了1个好方法。 ... [详细]
程序员
AIORedis和PUB / SUB不是asnyc

如何解决《AIORedis和PUB/SUB不是asnyc》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法从匿名类访问外部类

如何解决《无法从匿名类访问外部类》经验，为你挑选了1个好方法。 ... [详细]
程序员
强制https时,在symfony2中重定向循环

如何解决《强制https时,在symfony2中重定向循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
在没有eval的情况下在Javascript中的字符串中计算布尔表达式

如何解决《在没有eval的情况下在Javascript中的字符串中计算布尔表达式》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Cygwin中从源代码构建htop

如何解决《在Cygwin中从源代码构建htop》经验，为你挑选了1个好方法。 ... [详细]
程序员
下面的变量声明是否会导致词法错误或语法错误？

如何解决《下面的变量声明是否会导致词法错误或语法错误？》经验，为你挑选了3个好方法。 ... [详细]
程序员
GetCPUDescriptorHandleForHeapStart堆栈损坏

如何解决《GetCPUDescriptorHandleForHeapStart堆栈损坏》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过文件输入更改背景图像

如何解决《通过文件输入更改背景图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
CORS请求做出反应

如何解决《CORS请求做出反应》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用JavaScript获取元素的样式

如何解决《使用JavaScript获取元素的样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除查询在SQL Server中不起作用

如何解决《删除查询在SQLServer中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
模块化pow（）中的负功率

如何解决《模块化pow（）中的负功率》经验，为你挑选了1个好方法。 ... [详细]
程序员
angular指令控制器"this"返回undefined

如何解决《angular指令控制器"this"返回undefined》经验，为你挑选了1个好方法。 ... [详细]
程序员
面向初学者的C ++非阻塞编程

如何解决《面向初学者的C++非阻塞编程》经验，为你挑选了1个好方法。 ... [详细]
程序员
为std :: function键入别名

如何解决《为std::function键入别名》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Delphi中获得TEdit的画布？

如何解决《如何在Delphi中获得TEdit的画布？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在java中初始化日期类型的变量？

如何解决《如何在java中初始化日期类型的变量？》经验，为你挑选了2个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章