20赞

使用rvest(R)进行网络抓取时停止使用网址

作者：LEEstarmmmmm | 2023-09-10 07:37

如何解决《使用rvest(R)进行网络抓取时停止使用网址》经验，为你挑选了1个好方法。

我已经构建了一个功能,它可以获取网址并在抓取网页后返回所需的结果.功能如下:

library(httr) 
library(curl) 
library(rvest) 
library(dplyr)

sd_cat <- function(url){
  cat <- curl(url, handle = new_handle("useragent" = "myua")) %>%
  read_html() %>%
  html_nodes("#breadCrumbWrapper") %>%
  html_text()

x <- cat[1]

#y <- gsub(pattern = "\n", x=x, replacement = " ")

y <- gsub(pattern = "\t", x=x, replacement = " ")

y <- gsub("\\d|,|\t", x=y, replacement = "")

y <- gsub("^ *|(?<= ) | *$", "", y, perl=T)

z <- gsub("\n*{2,}","",y)

z <- gsub(" {2,}",">",z)

final <- substring(z,2)

final <- substring(final,1,nchar(final)-1)

final

#sample discontinued url: "http://www.snapdeal.com//product/givenchy-xeryus-rouge-g-edt/1978028261"
#sample working url: "http://www.snapdeal.com//product/davidoff-cool-water-game-100ml/1339014133"
}

这个函数在包含多个url的字符向量上使用sapply工作正常,但如果停止使用单个url,则该函数抛出

open.connection(x,"rb")出错:HTTP错误404.

我需要一种方法来跳过已停止的URL以使该功能正常工作.

1> hadley..：

更好的解决方案是使用httr并在响应不正确时故意采取措施:

library(httr) 
library(rvest) 

sd_cat <- function(url){
  r <- GET(url, user_agent("myua"))
  if (status_code(r) >= 300)
    return(NA_character_)

  r %>%
    read_html() %>%
    html_nodes("#breadCrumbWrapper") %>%
    .[[1]] %>% 
    html_nodes("span") %>% 
    html_text()
}

sd_cat("http://www.snapdeal.com//product/givenchy-xeryus-rouge-g-edt/1978028261")
sd_cat("http://www.snapdeal.com//product/davidoff-cool-water-game-100ml/1339014133")

(我也用更好的rvest替换你的正则表达式)

推荐阅读

程序员
React原生弹性框不使用所有可用空间

如何解决《React原生弹性框不使用所有可用空间》经验，为你挑选了1个好方法。 ... [详细]
程序员
滑行.缓存到外部存储(SD卡)

如何解决《滑行.缓存到外部存储(SD卡)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在JavaScript中,Equal to('=='和'===')之间的区别是什么？

如何解决《在JavaScript中,Equalto('=='和'===')之间的区别是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
可以ctest显示googletest控制台颜色

如何解决《可以ctest显示googletest控制台颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Akka Streams与Akka HTTP Server和Client

如何解决《AkkaStreams与AkkaHTTPServer和Client》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django在django-social-auth中出错

如何解决《Django在django-social-auth中出错》经验，为你挑选了2个好方法。 ... [详细]
程序员
python matplotlib在x轴上设置年份

如何解决《pythonmatplotlib在x轴上设置年份》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据toMap集合中的值过滤流

如何解决《根据toMap集合中的值过滤流》经验，为你挑选了1个好方法。 ... [详细]
程序员
远程主机上的Bash命令替换

如何解决《远程主机上的Bash命令替换》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python中解压缩RDD中每个项目的值(列表)？

如何解决《如何在Python中解压缩RDD中每个项目的值(列表)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tomcat服务器错误 - 端口8080已在使用中

如何解决《Tomcat服务器错误-端口8080已在使用中》经验，为你挑选了4个好方法。 ... [详细]
程序员
为什么Scala标准库中的`Numeric`没有`maxValue`？

如何解决《为什么Scala标准库中的`Numeric`没有`maxValue`？》经验，为你挑选了1个好方法。 ... [详细]
程序员
何时需要TURN？对称NAT和端口受限NAT

如何解决《何时需要TURN？对称NAT和端口受限NAT》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQLiteCantOpenDatabaseException:未知错误(代码14)无法打开数据库

如何解决《SQLiteCantOpenDatabaseException:未知错误(代码14)无法打开数据库》经验，为你挑选了2个好方法。 ... [详细]
程序员
typedef中C样式数组的维度

如何解决《typedef中C样式数组的维度》经验，为你挑选了1个好方法。 ... [详细]
程序员
列出Drive中的所有文件

如何解决《列出Drive中的所有文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Express Router中使用multer进行文件上传

如何解决《在ExpressRouter中使用multer进行文件上传》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Lazy处理并发请求？

如何解决《如何使用Lazy处理并发请求？》经验，为你挑选了1个好方法。 ... [详细]
程序员
默认方法中的自动构造函数匹配

如何解决《默认方法中的自动构造函数匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中无限循环可用吗？

如何解决《Python中无限循环可用吗？》经验，为你挑选了3个好方法。 ... [详细]

LEEstarmmmmm

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章