我和一位朋友最近在我的Clojure IRC机器人中实现了链接抓取.当它看到一个链接时,它会淹没页面并从页面中抓取标题.问题是它必须啜饮整个页面才能获取链接.
如何在第一个页面之前懒洋洋地阅读页面 ?
使用line-seq
但不要忘记在完成后关闭底层流.
我不会指望HTML必须以明智的方式分成几行; 没有在我们自己的后院外面看,例如Compojure(或者当前Hiccup,我猜)不打扰插入换行符,我相信(更新:刚检查打嗝 - 没有换行).
我建议的是懒惰的XML解析(带clojure.contrib.lazy-xml
)java.io.BufferedInputStream
.