17赞

Python Web Crawlers和"获取"html源代码

作者：手机用户2502852037 | 2023-07-01 21:53

如何解决《PythonWebCrawlers和"获取"html源代码》经验，为你挑选了2个好方法。

所以我的兄弟想让我用Python写一个网络爬虫(自学成才),我知道C++,Java和一些HTML.我使用的是2.7版本,并阅读Python库,但我有几个问题1. httplib.HTTPConnection和request概念对我来说是新的,如果它下载如cookie或实例的HTML脚本,我不明白.如果您同时执行这两项操作,您是否获得了网站页面的来源？我需要知道修改页面并返回修改后的页面的一些单词.

仅仅为了背景,我需要下载一个页面并用我拥有的img替换任何img

如果你们能告诉我你对2.7和3.1的看法,那就太好了

1> leoluk..：

~~使用Python 2.7,目前有更多的第三方库.~~(编辑:见下文).

我建议你使用stdlib模块urllib2,它可以让你轻松获得网络资源.例:

import urllib2

response = urllib2.urlopen("http://google.de")
page_source = response.read()

要解析代码,请查看BeautifulSoup.

顺便说一下:你究竟想做什么:

仅仅为了背景,我需要下载一个页面并用我拥有的img替换任何img

编辑:现在是2014年,大多数重要的库已被移植,如果可以,你绝对应该使用Python 3.python-requests是一个非常好的高级库,比它更容易使用urllib2.

2> Timo..：

@leoluk提到的示例python3和requests库以及:

pip install requests

脚本req.py:

import requests

url='http://localhost'

# in case you need a session
cd = { 'sessionid': '123..'}

r = requests.get(url, cookies=cd)
# or without a session: r = requests.get(url)
r.content

现在,执行它,你将获得localhost的html源代码!

python3 req.py

推荐阅读

程序员
ImportError:无法导入名称Pubnub

如何解决《ImportError:无法导入名称Pubnub》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Data是否支持OrientDB？

如何解决《SpringData是否支持OrientDB？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Robolectric测试抛出RuntimeException:java.lang.ClassNotFoundException

如何解决《Robolectric测试抛出RuntimeException:java.lang.ClassNotFoundException》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring Security java.lang.IllegalArgumentException:输入中的非十六进制字符

如何解决《SpringSecurityjava.lang.IllegalArgumentException:输入中的非十六进制字符》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么我的IF声明不能显示我想要的结果？

如何解决《为什么我的IF声明不能显示我想要的结果？》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何确认一个字符串只包含Swift中的数字？

如何解决《你如何确认一个字符串只包含Swift中的数字？》经验，为你挑选了2个好方法。 ... [详细]
程序员
CSS边框底部的曲线

如何解决《CSS边框底部的曲线》经验，为你挑选了1个好方法。 ... [详细]
程序员
在道具更新时调用组件上的自定义方法

如何解决《在道具更新时调用组件上的自定义方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Javascript:避免重新加载窗口

如何解决《Javascript:避免重新加载窗口》经验，为你挑选了1个好方法。 ... [详细]
程序员
返回false不工作,单击h:commandButton会触发操作

如何解决《返回false不工作,单击h:commandButton会触发操作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel创建5.2版本项目问题

如何解决《Laravel创建5.2版本项目问题》经验，为你挑选了2个好方法。 ... [详细]
程序员
开始使用nodemailer和mandrill smtp报错。CERT_HAS_EXPIRED错误：证书已过期

如何解决《开始使用nodemailer和mandrillsmtp报错。CERT_HAS_EXPIRED错误：证书已过期》经验，为你挑选了1个好方法。 ... [详细]
程序员
ReadAsAsync和JsonConvert之间的区别

如何解决《ReadAsAsync和JsonConvert之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
在一个充满零的矩阵中的一个 - R.

如何解决《在一个充满零的矩阵中的一个-R.》经验，为你挑选了1个好方法。 ... [详细]
程序员
SWIFT iOS中的崩溃报告

如何解决《SWIFTiOS中的崩溃报告》经验，为你挑选了0个好方法。 ... [详细]
程序员
Scala Try的toOption方法返回Some(null)

如何解决《ScalaTry的toOption方法返回Some(null)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Scanner类中的hasNext()？

如何解决《如何使用Scanner类中的hasNext()？》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递基础参考字段的生命周期？

如何解决《传递基础参考字段的生命周期？》经验，为你挑选了0个好方法。 ... [详细]
程序员
d3.js linkStrength对力图中linkDistance的影响

如何解决《d3.jslinkStrength对力图中linkDistance的影响》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用Delphi DLL的意外线程行为

如何解决《调用DelphiDLL的意外线程行为》经验，为你挑选了1个好方法。 ... [详细]

手机用户2502852037

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章