13赞

java爬虫Gecco工具抓取新闻实例

作者：家具销售_903 | 2022-11-30 20:06

本篇文章主要介绍了JAVA爬虫Gecco工具抓取新闻实例，具有一定的参考价值，感兴趣的小伙伴们可以参考一下。

最近看到Gecoo爬虫工具，感觉比较简单好用，所有写个DEMO测试一下，抓取网站
http://zj.zjol.com.cn/home.html，主要抓取新闻的标题和发布时间做为抓取测试对象。抓取HTML节点通过像Jquery选择器一样选择节点，非常方便，Gecco代码主要利用注解实现来实现URL匹配，看起来比较简洁美观。

添加Maven依赖


   com.geccocrawler
   gecco
   1.0.8

编写抓取列表页面

@Gecco(matchUrl = "http://zj.zjol.com.cn/home.html?pageIndex={pageIndex}&pageSize={pageSize}",pipelines = "zJNewsListPipelines")
public class ZJNewsGeccoList implements HtmlBean {
  @Request
  private HttpRequest request;
  @RequestParameter
  private int pageIndex;
  @RequestParameter
  private int pageSize;
  @HtmlField(cssPath = "#content > div > div > div.con_index > div.r.main_mod > div > ul > li > dl > dt > a")
  private List newList;
}

@PipelineName("zJNewsListPipelines")
public class ZJNewsListPipelines implements Pipeline {
  public void process(ZJNewsGeccoList zjNewsGeccoList) {
    HttpRequest request=zjNewsGeccoList.getRequest();
    for (HrefBean bean:zjNewsGeccoList.getNewList()){
      //进入祥情页面抓取
    SchedulerContext.into(request.subRequest("http://zj.zjol.com.cn"+bean.getUrl()));
    }
    int page=zjNewsGeccoList.getPageIndex()+1;
    String nextUrl = "http://zj.zjol.com.cn/home.html?pageIndex="+page+"&pageSize=100";
    //抓取下一页
    SchedulerContext.into(request.subRequest(nextUrl));
  }
}

编写抓取祥情页面

@Gecco(matchUrl = "http://zj.zjol.com.cn/news/[code].html" ,pipelines = "zjNewsDetailPipeline")
public class ZJNewsDetail implements HtmlBean {

  @Text
  @HtmlField(cssPath = "#headline")
  private String title ;

  @Text
  @HtmlField(cssPath = "#content > div > div.news_con > div.news-content > div:nth-child(1) > div > p.go-left.post-time.c-gray")
  private String createTime;
}

@PipelineName("zjNewsDetailPipeline")
public class ZJNewsDetailPipeline implements Pipeline {
  public void process(ZJNewsDetail zjNewsDetail) {
    System.out.println(zjNewsDetail.getTitle()+" "+zjNewsDetail.getCreateTime());
  }
}

启动主函数

public class Main {
  public static void main(String [] rags){
    GeccoEngine.create()
        //工程的包路径
        .classpath("com.zhaochao.gecco.zj")
        //开始抓取的页面地址
        .start("http://zj.zjol.com.cn/home.html?pageIndex=1&pageSize=100")
        //开启几个爬虫线程
        .thread(10)
        //单个爬虫每次抓取完一个请求后的间隔时间
        .interval(10)
        //使用pc端userAgent
        .mobile(false)
        //开始运行
        .run();
  }
}

抓取结果

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
在Haskell中实现一种语言:同源列表

如何解决《在Haskell中实现一种语言:同源列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
不支持的证书类型.通用名称(CN)

如何解决《不支持的证书类型.通用名称(CN)》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法将文件从捆绑包复制到iOS中的文档目录

如何解决《无法将文件从捆绑包复制到iOS中的文档目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用中继搜索功能

如何解决《使用中继搜索功能》经验，为你挑选了1个好方法。 ... [详细]
程序员
将24小时格式化时间转换为十进制数

如何解决《将24小时格式化时间转换为十进制数》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#类实例列表

如何解决《C#类实例列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在中间(垂直)对齐文本

如何解决《如何在中间(垂直)对齐文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode 7.2找不到匹配的配置文件

如何解决《Xcode7.2找不到匹配的配置文件》经验，为你挑选了6个好方法。 ... [详细]
程序员
如何使用键盘快捷方式在atom中添加文件夹？

如何解决《如何使用键盘快捷方式在atom中添加文件夹？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在R中停止一个耗时太长的函数并给它一个替代方案？

如何解决《如何在R中停止一个耗时太长的函数并给它一个替代方案？》经验，为你挑选了1个好方法。 ... [详细]
程序员
计算字符串重复SCALA的次数

如何解决《计算字符串重复SCALA的次数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Ruby 2.3中引入的Array#dig和Hash #dig？

如何解决《如何使用Ruby2.3中引入的Array#dig和Hash#dig？》经验，为你挑选了2个好方法。 ... [详细]
程序员
是否有任何常见的电子邮件客户端预取链接而不是图像？

如何解决《是否有任何常见的电子邮件客户端预取链接而不是图像？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在R中按组省略两个最高值和最低值的行

如何解决《如何在R中按组省略两个最高值和最低值的行》经验，为你挑选了1个好方法。 ... [详细]
程序员
集成在Python中返回数组的函数

如何解决《集成在Python中返回数组的函数》经验，为你挑选了0个好方法。 ... [详细]
程序员
Theano:更改`base_compiledir`以将编译的文件保存在另一个目录中

如何解决《Theano:更改`base_compiledir`以将编译的文件保存在另一个目录中》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何执行线程安全获取然后使用ConcurrentHashMap删除？

如何解决《如何执行线程安全获取然后使用ConcurrentHashMap删除？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Express - 在中间件函数之间传递数据的更好模式

如何解决《Express-在中间件函数之间传递数据的更好模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kotlin懒惰的默认属性

如何解决《Kotlin懒惰的默认属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
输入文本框的jQuery悬停事件不起作用

如何解决《输入文本框的jQuery悬停事件不起作用》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章