我正在尝试抓取此网站:
http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true
通过rvest
R中的包装。
不幸的是,似乎rvest
无法通过CSS选择器识别节点。
例如,如果我尝试提取每个表的标题(坡度,奖赏,距离)中的信息,其CSS选择器为“ .black”,然后运行以下代码:
URL <- read_html("http://www.racingpost.com/greyhounds/result_home.sd#resultDay=2015-12-26&meetingId=18&isFullMeeting=true") nodes<-html_nodes(URL, ".black")
节点显示为空列表,因此不会刮任何东西。
它正在发出XHR请求以生成HTML。尝试以下操作(这也将使自动执行数据捕获更加容易):
library(httr) library(xml2) library(rvest) res <- GET("http://www.racingpost.com/greyhounds/result_by_meeting_full.sd", query=list(r_date="2015-12-26", meeting_id=18)) doc <- read_html(content(res, as="text")) html_nodes(doc, ".black") ## {xml_nodeset (56)} ## [1] A9 ## [2] £61 ## [3] 470m ## [4] -30 ## [5] H2 ## [6] £105 ## [7] 470m ## [8] -30 ## [9] A7 ## [10] £61 ## [11] 470m ## [12] -30 ## [13] A5 ## [14] £66 ## [15] 470m ## [16] -30 ## [17] A8 ## [18] £61 ## [19] 470m ## [20] -20 ## ...