大家好我正在编写一个简单的网页抓取脚本,需要连接到网页,自动跟踪302重定向,给我链接的最终网址,让我抓住HTML.
做这些事情的首选java lib是什么?
谢谢
您可以使用Apache HttpComponents Client(或"普通的Java SE内置和详细URLConnection
API").对于HTML解析/遍历/操作部分,Jsoup可能很有用.
请注意,有点像样的爬虫应该遵守robots.txt.您可能想看一下现有的基于Java的webcrawler,比如J-Spider Apache Nutch.