Python即时网络爬虫：API说明

作者：赛亚兔备_393 | 2021-09-03 05:55

通过这个API接口，你可以直接获得一个调测好的提取器脚本程序，是标准的XSLT程序，您只需针对目标网页的DOM运行它，就能获得XML格式的结果，所有字段一次性获得

API说明——下载gsExtractor内容提取器

1，接口名称

下载内容提取器

2，接口说明

如果您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即便使用XPath，您也得逐个编写和调试。

如果要从一个网页上提取很多字段，逐个调试XPath将是十分耗时的。通过这个接口，你可以直接获得一个调测好的提取器脚本程序，是标准的XSLT程序，您只需针对目标网页的DOM运行它，就能获得XML格式的结果，所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的，也可以是其他人共享给您的，只要您有读权限，皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，如果这个提取器是从API获得的，您的网络爬虫程序就能写成通用的框架。

3，接口规范

3.1，接口地址（URL）

http://www.gooseeker.com/api/getextractor

3.2，请求类型（contentType）

不限

3.3，请求方法

HTTP GET

3.4，请求参数

key 必选：Yes；类型：String；说明：申请API时分配的AppKey

theme 必选：Yes；类型：String；说明：提取器名，就是用MS谋数台定义的规则名

middle 必选：No；类型：String；说明：规则编号，如果相同规则名下定义了多个规则，需填写

bname 必选：No；类型：String；说明：整理箱名，如果规则含有多个整理箱，需填写

3.5，返回类型（contentType）

text/xml; charset=UTF-8

3.6，返回参数

HTTP消息头中的参数，如下：

more-extractor 类型：String；说明：相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数，用以提示客户端有多个规则和整理箱，客户端自己决定是否要在发送请求时携带明确的参数

3.7，返回错误信息

消息层错误以HTTP 400返回，比如，URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回，具体错误码用XML文件放在消息体中，XML结构如下：


    具体的错误码

具体的code值如下：keyError：权限验证失败

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确

4，用法范例（python语言）

示例代码：

# -*- coding: utf-8 -*-
from urllib import request

url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下来我会对此API进行测试

推荐阅读

程序员
了解Swift中的崩溃报告(部分应用...)

如何解决《了解Swift中的崩溃报告(部分应用)》经验，为你挑选了0个好方法。 ... [详细]
程序员
ADB连接错误:无法创建调试桥:无法启动adb服务器:无法检测adb版本,adb输出

如何解决《ADB连接错误:无法创建调试桥:无法启动adb服务器:无法检测adb版本,adb输出》经验，为你挑选了2个好方法。 ... [详细]
程序员
Pygame和PyGTK并排

如何解决《Pygame和PyGTK并排》经验，为你挑选了0个好方法。 ... [详细]
程序员
在刀片中使用刀片

如何解决《在刀片中使用刀片》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在python中实现像sum(2)(3)(4)......(n)这样的函数？

如何解决《如何在python中实现像sum(2)(3)(4)(n)这样的函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在R版本3.2.3中完全安装软件包("caret")

如何解决《无法在R版本3.2.3中完全安装软件包("caret")》经验，为你挑选了0个好方法。 ... [详细]
程序员
PG :: UndefinedTable：错误：关系“ ...”不存在

如何解决《PG::UndefinedTable：错误：关系“”不存在》经验，为你挑选了0个好方法。 ... [详细]
程序员
断言(0)是什么意思？

如何解决《断言(0)是什么意思？》经验，为你挑选了3个好方法。 ... [详细]
程序员
MSBuild - >(箭头/破折号更大/ - >)运算符有什么作用？

如何解决《MSBuild->(箭头/破折号更大/->)运算符有什么作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果满足某些条件,返回true或false的函数？

如何解决《如果满足某些条件,返回true或false的函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
“使用守护程序的错误响应：找不到404页面”使用docker命令时

如何解决《“使用守护程序的错误响应：找不到404页面”使用docker命令时》经验，为你挑选了0个好方法。 ... [详细]
程序员
ASP.NET MVC 6:在单独的程序集中查看组件

如何解决《ASP.NETMVC6:在单独的程序集中查看组件》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有复杂对象的角度形式模型

如何解决《具有复杂对象的角度形式模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jquery插件Croppie裁剪图像错误

如何解决《Jquery插件Croppie裁剪图像错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
将自定义UITableViewCell从nib加载到Swift中的UIViewController

如何解决《将自定义UITableViewCell从nib加载到Swift中的UIViewController》经验，为你挑选了1个好方法。 ... [详细]
程序员
从glTexStorage3D切换到glTexImage3D

如何解决《从glTexStorage3D切换到glTexImage3D》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Opencv检测图像中矩形的中心和角度

如何解决《使用Opencv检测图像中矩形的中心和角度》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么信号和插槽比普通的旧回调更好？

如何解决《为什么信号和插槽比普通的旧回调更好？》经验，为你挑选了1个好方法。 ... [详细]
程序员
用户无权执行:cloudformation:CreateStack

如何解决《用户无权执行:cloudformation:CreateStack》经验，为你挑选了3个好方法。 ... [详细]
程序员
在IntelliJ IDEA中可视化已更改/添加/删除的Git行

如何解决《在IntelliJIDEA中可视化已更改/添加/删除的Git行》经验，为你挑选了1个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章