如何从Racket中的html中提取元素？

作者：围脖上的博博_771 | 2023-09-11 14:20

如何解决《如何从Racket中的html中提取元素？》经验，为你挑选了1个好方法。

我想在reddit中提取网址,我的代码是

#lang racket

(require net/url)
(require html)

(define reddit (string->url "http://www.reddit.com/r/programming/search?q=racket&sort=relevance&restrict_sr=on&t=all"))
(define in (get-pure-port reddit #:redirections 5))

(define response-html (read-html-as-xml in))
(define content-0 (list-ref response-html 0))

(close-input-port in)

上面的内容为0

(element
 (location 0 0 15)
 (location 0 0 82)
...

我想知道如何从中提取特定内容.

1> Greg Henders..：

通常,将HTML作为x表达式而不是html模块的处理更方便struct.

您也应该使用call/input-url自动关闭端口.

您可以通过定义read-html-as-xexpr函数并使用它来结合这两种想法:

#lang racket/base

(require html
         net/url
         xml)

(define (read-html-as-xexpr in) ;; input-port? -> xexpr?
  (caddr
   (xml->xexpr
    (element #f #f 'root '()
             (read-html-as-xml in)))))

(define reddit (string->url "http://www.reddit.com/r/programming/search?q=racket&sort=relevance&restrict_sr=on&t=all"))

(call/input-url reddit
                get-pure-port
                read-html-as-xexpr)

这将返回一个大的x表达式,如:

'(html
  ((lang "en") (xml:lang "en") (xmlns "http://www.w3.org/1999/xhtml"))
  (head
   ()
   (title () "programming: search results")
   (meta
    ((content " reddit, reddit.com, vote, comment, submit ")
     (name "keywords")))
   (meta
    ((content "reddit: the front page of the internet") (name "description")))
   (meta ((content "origin") (name "referrer")))
   (meta ((content "text/html; charset=UTF-8") (http-equiv "Content-Type")))
... snip ...

如何提取具体的那些？

对于简单的HTML,我不希望整体结构发生变化,我经常会使用match.

然而,更正确和更健壮的方法是使用该xml/path模块.

更新:我注意到你的问题是通过询问提取网址而开始的.这是更新的示例,用于se-path*/list获取所有元素href的所有属性:

#lang racket/base

(require html
         net/url
         xml
         xml/path)

(define (read-html-as-xexprs in) ;; (-> input-port? xexpr?)
  (caddr
   (xml->xexpr
    (element #f #f 'root '()
             (read-html-as-xml in)))))

(define reddit (string->url "http://www.reddit.com/r/programming/search?q=racket&sort=relevance&restrict_sr=on&t=all"))

(define xe (call/input-url reddit
                           get-pure-port
                           read-html-as-xexprs))

(se-path*/list '(a #:href) xe)

结果:

'("#content"
  "http://www.reddit.com/r/announcements/"
  "http://www.reddit.com/r/Art/"
  "http://www.reddit.com/r/AskReddit/"
  "http://www.reddit.com/r/askscience/"
  "http://www.reddit.com/r/aww/"
  "http://www.reddit.com/r/blog/"
  "http://www.reddit.com/r/books/"
  "http://www.reddit.com/r/creepy/"
  "http://www.reddit.com/r/dataisbeautiful/"
  "http://www.reddit.com/r/DIY/"
  "http://www.reddit.com/r/Documentaries/"
  "http://www.reddit.com/r/EarthPorn/"
  "http://www.reddit.com/r/explainlikeimfive/"
  "http://www.reddit.com/r/Fitness/"
  "http://www.reddit.com/r/food/"
  ... snip ...

推荐阅读

程序员
我在哪里可以找到svn错误代码的详尽列表

如何解决《我在哪里可以找到svn错误代码的详尽列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
推动Heroku失败 - 没有这样的应用致命

如何解决《推动Heroku失败-没有这样的应用致命》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何查看Swift文件的公共API"标题"？

如何解决《如何查看Swift文件的公共API"标题"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Retrofit中一起使用@Field和@Body参数

如何解决《在Retrofit中一起使用@Field和@Body参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplot和两个不同的geom_line():图例不会出现

如何解决《ggplot和两个不同的geom_line():图例不会出现》经验，为你挑选了2个好方法。 ... [详细]
程序员
从数组列表中设置抽屉项目，然后在MaterialDrawer中单击

如何解决《从数组列表中设置抽屉项目，然后在MaterialDrawer中单击》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将Clojure中的整数列表传递给Frege函数？

如何解决《如何将Clojure中的整数列表传递给Frege函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang:同时处理5个巨大的文件

如何解决《Golang:同时处理5个巨大的文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:未声明(首次使用此功能)

如何解决《错误:未声明(首次使用此功能)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Swift在NSTextField中垂直对齐文本

如何解决《使用Swift在NSTextField中垂直对齐文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
解耦React组件和Redux Connect

如何解决《解耦React组件和ReduxConnect》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么type_traits是类而不是函数

如何解决《为什么type_traits是类而不是函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取点击控件的所有html内容？

如何解决《如何获取点击控件的所有html内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用stans integrate_ode x输入？

如何解决《如何使用stansintegrate_odex输入？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Apache Spark中按多个字段排序

如何解决《在ApacheSpark中按多个字段排序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Solidus安装失败

如何解决《Solidus安装失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
Json数据出错:Laravel 5.1

如何解决《Json数据出错:Laravel5.1》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ说,应该不应该作为参数x传递

如何解决《IntelliJ说,应该不应该作为参数x传递》经验，为你挑选了2个好方法。 ... [详细]
程序员
angular2复选框ng-model未更新

如何解决《angular2复选框ng-model未更新》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何将Rust`Args`转换为argc和argv C等价物？

如何解决《如何将Rust`Args`转换为argc和argvC等价物？》经验，为你挑选了1个好方法。 ... [详细]

围脖上的博博_771

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章