11赞

SpringBoot中使用Jsoup爬取网站数据的方法

作者：周扒pi | 2021-10-20 23:43

这篇文章主要介绍了SpringBoot中使用Jsoup爬取网站数据的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

爬取数据

导入jar包

 
    1.8
    7.6.1
  
 
  
    
      org.jsoup
      jsoup
      1.10.2
    
    
      com.alibaba
      fastjson
      1.2.62
    
    
      org.springframework.boot
      spring-boot-starter-data-redis
    
    
      org.springframework.boot
      spring-boot-starter-data-elasticsearch
    
    
      org.springframework.boot
      spring-boot-starter-thymeleaf
    
    
      org.springframework.boot
      spring-boot-starter-web
    
 
    
      org.springframework.boot
      spring-boot-devtools
      runtime
      true
    
    
      org.springframework.boot
      spring-boot-configuration-processor
      true
    
    
      org.projectlombok
      lombok
      true
    
    
      org.springframework.boot
      spring-boot-starter-test
      test
      
        
          org.junit.vintage
          junit-vintage-engine

新建实体类

@Data
@NoArgsConstructor
@AllArgsConstructor
public class Content {
  private String title;
  private String img;
  private String price;
}

编写爬虫工具类

public class HtmlParseUtil {
  public static void main(String[] args) throws Exception {
    new HtmlParseUtil().parseDDJJ("包").forEach(System.out::println);
  }
 
  public List parseDDJJ(String keywords) throws Exception {
    //爬取url地址
    String url = "https://search.xxxx.com/Search?keyword="+keywords;
    //解析网页，30s内未爬取成功，打印错误
    Document document = Jsoup.parse(new URL(url),30000);
    //获取每一本书籍的id
    Element element = document.getElementById("DJ_goodsList");
    //获取所有的li标签
    Elements elements = element.getElementsByTag("li");
 
    ArrayList goodsList = new ArrayList<>();
 
    //遍历li标签的内容
    for (Element el : elements) {
      String img = el.getElementsByTag("img").eq(0).attr("src");
      String price = el.getElementsByClass("p-price").eq(0).text();
      String title = el.getElementsByClass("p-name").eq(0).text();
 
      Content content = new Content();
      content.setTitle(title);
      content.setPrice(price);
      content.setImg(img);
      goodsList.add(content);
    }
    return goodsList;
  }
}

可以看到内容、图片、价格系数爬取

到此这篇关于SpringBoot中使用Jsoup爬取网站数据的方法的文章就介绍到这了,更多相关SpringBoot Jsoup爬取内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

程序员
在同一个StringBuilder实例上调用toString时输出不同

如何解决《在同一个StringBuilder实例上调用toString时输出不同》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法找出我的程序陷入无限循环的原因

如何解决《无法找出我的程序陷入无限循环的原因》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android - ScrollView和PercentRelativeLayout

如何解决《Android-ScrollView和PercentRelativeLayout》经验，为你挑选了1个好方法。 ... [详细]
程序员
在编译的哪个步骤中删除了注释？

如何解决《在编译的哪个步骤中删除了注释？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Aurelia中<compose>和<require>有什么区别？

如何解决《Aurelia中<compose>和<require>有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
RxSwift和如何使简单的TableViewController？

如何解决《RxSwift和如何使简单的TableViewController？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这段代码的哪一部分导致无限循环？

如何解决《这段代码的哪一部分导致无限循环？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang:从文本文件中替换字符串中的换行符的问题

如何解决《Golang:从文本文件中替换字符串中的换行符的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#auto-property snippet将get和set放在新行上

如何解决《C#auto-propertysnippet将get和set放在新行上》经验，为你挑选了1个好方法。 ... [详细]
程序员
图像在浮动容器内的奇怪行为

如何解决《图像在浮动容器内的奇怪行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
gcc:切换后如何最好地处理关于(无法到达)功能结束的警告？

如何解决《gcc:切换后如何最好地处理关于(无法到达)功能结束的警告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
启用后退按钮,不允许通过URL手动更改

如何解决《启用后退按钮,不允许通过URL手动更改》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker Hub - 自动构建标记,未触发正则表达式匹配

如何解决《DockerHub-自动构建标记,未触发正则表达式匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
IOS发布图像 - 让我发疯

如何解决《IOS发布图像-让我发疯》经验，为你挑选了5个好方法。 ... [详细]
程序员
iOS,ld:框架找不到架构arm64的GoogleMaps

如何解决《iOS,ld:框架找不到架构arm64的GoogleMaps》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift数组和字典性能,removeAll()vs新实例

如何解决《Swift数组和字典性能,removeAll()vs新实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
GDB进入断点时抛出错误

如何解决《GDB进入断点时抛出错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
在模拟方法(Moq)中更改参考参数的值

如何解决《在模拟方法(Moq)中更改参考参数的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义

如何解决《Ionic:模拟器:错误:这个AVD的配置缺少一个内核文件!模拟器:错误:ANDROID_SDK_ROOT未定义》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kotlin flatMap - 地图

如何解决《KotlinflatMap-地图》经验，为你挑选了0个好方法。 ... [详细]

周扒pi

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章