14赞

在Web scraper中使用多个Web页面

作者：ERIK又 | 2023-09-07 19:40

如何解决《在Webscraper中使用多个Web页面》经验，为你挑选了1个好方法。

我一直在研究一些Python代码,以便能够从政府网站获得社交媒体帐户的链接,以便轻松地与城市联系.我已经设法调整了一些代码在2.7中工作,它打印了给定输入网站上的facebook,twitter,linkedin和google +的所有链接.我目前遇到的问题是,我不是只在一个网页上查找链接,而是在大约200个网站的列表中,我有一个Excel文件.我没有将这些类型的列表导入Python的经验,所以我想知道是否有人可以查看代码,并建议一个正确的方法将所有这些网页设置为base_url,如果可能的话;

import cookielib

import mechanize

base_url = "http://www.amsterdam.nl"

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.set_handle_redirect(True)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent',
              'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
page = br.open(base_url, timeout=10)

links = {}
for link in br.links():
    if link.url.find('facebook')>=0 or link.url.find('twitter')>=0 or link.url.find('linkedin')>=0 or link.url.find('plus.google')>=0:
    links[link.url] = {'count': 1, 'texts': [link.text]}

# printing
for link, data in links.iteritems():
print "%s - %s - %s - %d" % (base_url, link, ",".join(data['texts']), data['count'])

Bhargav.. 5

你提到你有一个包含所有网站列表的excel文件吗？因此,您可以将excel文件导出为一个csv文件,然后您可以从python代码中读取值.

以下是有关此内容的更多信息.

以下是如何直接使用excel文件

你可以做一些事情:

import csv

links = []

with open('urls.csv', 'r') as csv_file:
    csv_reader = csv.reader(csv_file)
    # Simple example where only a single column of URL's is present
    links = list(csv_reader)

现在links是所有网址的列表.然后,您可以在获取页面并擦除数据的函数内循环列表.

def extract_social_links(links):
    for link in links:
        base_url = link 

        br = mechanize.Browser()
        cj = cookielib.LWPCookieJar()
        br.set_cookiejar(cj)
        br.set_handle_robots(False)
        br.set_handle_equiv(False)
        br.set_handle_redirect(True)
        br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(),     max_time=1)
        br.addheaders = [('User-agent',
          'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
        page = br.open(base_url, timeout=10)

        links = {}
        for link in br.links():
            if link.url.find('facebook')>=0 or link.url.find('twitter')>=0 or     link.url.find('linkedin')>=0 or link.url.find('plus.google')>=0:
            links[link.url] = {'count': 1, 'texts': [link.text]}

        # printing
        for link, data in links.iteritems():
        print "%s - %s - %s - %d" % (base_url, link, ",".join(data['texts']), data['count'])

顺便说一句,您应该分割if条件以使它们更具可读性.

1> Bhargav..：

你提到你有一个包含所有网站列表的excel文件吗？因此,您可以将excel文件导出为一个csv文件,然后您可以从python代码中读取值.

以下是有关此内容的更多信息.

以下是如何直接使用excel文件

你可以做一些事情:

import csv

links = []

with open('urls.csv', 'r') as csv_file:
    csv_reader = csv.reader(csv_file)
    # Simple example where only a single column of URL's is present
    links = list(csv_reader)

现在links是所有网址的列表.然后,您可以在获取页面并擦除数据的函数内循环列表.

def extract_social_links(links):
    for link in links:
        base_url = link 

        br = mechanize.Browser()
        cj = cookielib.LWPCookieJar()
        br.set_cookiejar(cj)
        br.set_handle_robots(False)
        br.set_handle_equiv(False)
        br.set_handle_redirect(True)
        br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(),     max_time=1)
        br.addheaders = [('User-agent',
          'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
        page = br.open(base_url, timeout=10)

        links = {}
        for link in br.links():
            if link.url.find('facebook')>=0 or link.url.find('twitter')>=0 or     link.url.find('linkedin')>=0 or link.url.find('plus.google')>=0:
            links[link.url] = {'count': 1, 'texts': [link.text]}

        # printing
        for link, data in links.iteritems():
        print "%s - %s - %s - %d" % (base_url, link, ",".join(data['texts']), data['count'])

顺便说一句,您应该分割if条件以使它们更具可读性.

推荐阅读

程序员
如何在Smalltalk中访问类变量

如何解决《如何在Smalltalk中访问类变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加到SourceBuffer的MediaSource在第一次之后不起作用

如何解决《添加到SourceBuffer的MediaSource在第一次之后不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法解析方法setText(java.lang.String)

如何解决《无法解析方法setText(java.lang.String)》经验，为你挑选了1个好方法。 ... [详细]
程序员
从moment.js对象中删除时区

如何解决《从moment.js对象中删除时区》经验，为你挑选了3个好方法。 ... [详细]
程序员
如果不首先删除侦听器,重新分配数据源是否会导致内存泄漏？

如何解决《如果不首先删除侦听器,重新分配数据源是否会导致内存泄漏？》经验，为你挑选了0个好方法。 ... [详细]
程序员
numpy的标准偏差

如何解决《numpy的标准偏差》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找通过url传递的变量数量

如何解决《查找通过url传递的变量数量》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebApp部署到Azure

如何解决《WebApp部署到Azure》经验，为你挑选了1个好方法。 ... [详细]
程序员
TestNG启动期间发生内部错误

如何解决《TestNG启动期间发生内部错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
在没有Marshal.Copy或Unsafe的情况下在C ++中更新C＃数组

如何解决《在没有Marshal.Copy或Unsafe的情况下在C++中更新C＃数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
DRF:验证后但在创建之前删除模型序列化程序上的字段(在CreateAPIView上)

如何解决《DRF:验证后但在创建之前删除模型序列化程序上的字段(在CreateAPIView上)》经验，为你挑选了1个好方法。 ... [详细]
程序员
angular bootstrap typeahead将ng-model设置为对象而不是单个字段

如何解决《angularbootstraptypeahead将ng-model设置为对象而不是单个字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重命名与嵌套JSON对应的DataFrame中的字段

如何解决《如何重命名与嵌套JSON对应的DataFrame中的字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Entity Framework中比较日期的最佳方法

如何解决《在EntityFramework中比较日期的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从字符串流中的相同位置读取两次？

如何解决《如何从字符串流中的相同位置读取两次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何根据子域数组约束Rails路由？

如何解决《如何根据子域数组约束Rails路由？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python 2,在简单的情况下映射不等同于列表推导; 长度依赖

如何解决《Python2,在简单的情况下映射不等同于列表推导;长度依赖》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何实现通信Activity-Service

如何解决《如何实现通信Activity-Service》经验，为你挑选了0个好方法。 ... [详细]
程序员
三维点旋转算法

如何解决《三维点旋转算法》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Visual Studio 2015 Update 1中的Post-Build事件执行AL.EXE时出现错误-1073741819(0xC0000005)

如何解决《从VisualStudio2015Update1中的Post-Build事件执行AL.EXE时出现错误-1073741819(0xC0000005)》经验，为你挑选了0个好方法。 ... [详细]

ERIK又

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章