2赞

Java 网络爬虫新手入门详解

作者：手机用户2402852387 | 2022-02-02 20:26

这篇文章主要介绍了Java网络爬虫新手入门详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看Java 网络爬虫基础知识入门解析。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例，需要提取的内容如下图所示：

我们需要提取图中圈出来的文字及其对应的链接，在提取的过程中，我们会使用两种方式来提取，一种是 Jsoup 的方式，另一种是 httpclient + 正则表达式的方式，这也是 Java 网络爬虫常用的两种方式，你不了解这两种方式没关系，后面会有相应的使用手册。在正式编写提取程序之前，我先交代一下 Java 爬虫系列博文的环境，该系列博文所有的 demo 都是使用 SpringBoot 搭建的，不管你使用哪种环境，只需要正确的导入相应的包即可。

Jsoup 方式提取信息

我们先来使用 Jsoup 的方式提取新闻信息，如果你还不知道 Jsoup ，请参考 https://jsoup.org/

先建立一个 Springboot 项目，名字就随意啦，在 pom.xml 中引入 Jsoup 的依赖


 org.jsoup
 jsoup
 1.12.1

好了，接下来我们一起分析页面吧，想必你还没浏览过吧，点击这里浏览虎扑新闻。在列表页中，我们利用 F12 审查元素查看页面结构，经过我们分析发现列表新闻在

标签下，每一条新闻都是一个li标签，分析结果如下图所示：

由于我们前面已经知道了 css 选择器，我们结合浏览器的 Copy 功能，编写出我们 a标签的 css 选择器代码：div.news-list > ul > li > div.list-hd > h4 > a ，一切都准备好了，我们一起来编写 Jsoup 方式提取信息的代码：

/**
 * jsoup方式 获取虎扑新闻列表页
 * @param url 虎扑新闻列表页url
 */
public void jsoupList(String url){
 try {
  Document document = Jsoup.connect(url).get();
  // 使用 css选择器 提取列表新闻 a 标签
  // 霍华德：夏休期内曾节食30天，这考验了我的身心
  Elements elements = document.select("div.news-list > ul > li > div.list-hd > h4 > a");
  for (Element element:elements){
//    System.out.println(element);
   // 获取详情页链接
   String d_url = element.attr("href");
   // 获取标题
   String title = element.ownText();

   System.out.println("详情页链接："+d_url+" ,详情页标题："+title);

  }
 } catch (IOException e) {
  e.printStackTrace();
 }
}

使用 Jsoup 方式提取还是非常简单的，就5、6行代码就完成了，关于更多 Jsoup 如何提取节点信息的方法可以参考 jsoup 的官网教程。我们编写 main 方法，来执行 jsoupList 方法，看看 jsoupList 方法是否正确。

public static void main(String[] args) {
 String url = "https://voice.hupu.com/nba";
 CrawlerBase crawlerBase = new CrawlerBase();
 crawlerBase.jsoupList(url);
}

执行 main 方法，得到如下结果：

从结果中可以看出，我们已经正确的提取到了我们想要的信息，如果你想采集详情页的信息，只需要编写一个采集详情页的方法，在方法中提取详情页相应的节点信息，然后将列表页提取的链接传入提取详情页方法即可。

httpclient + 正则表达式

上面我们使用了 Jsoup 方式正确提取了虎扑列表新闻，接下来我们使用 httpclient + 正则表达式的方式来提取，看看使用这种方式又会涉及到哪些问题？httpclient + 正则表达式的方式涉及的知识点还是蛮多的，它涉及到了正则表达式、Java 正则表达式、httpclient。如果你还不知道这些知识，可以点击下方链接简单了解一下：

正则表达式：正则表达式

Java 正则表达式：Java 正则表达式

httpclient：httpclient

我们在 pom.xml 文件中，引入 httpclient 相关 Jar 包


 org.apache.httpcomponents
 httpclient
 4.5.10


 org.apache.httpcomponents
 httpcore
 4.4.10


 org.apache.httpcomponents
 httpmime
 4.5.10

关于虎扑列表新闻页面，我们在使用 Jsoup 方式的时候进行了简单的分析，这里我们就不在重复分析了。对于使用正则表达式方式提取，我们需要找到能够代表列表新闻的结构体，比如：

直上云霄！魔术官方社媒晒富尔茨扣篮炫酷特效图

这段结构体，每个列表新闻只有链接和标题不一样，其他的都一样，而且

是列表新闻特有的。最好不要直接正则匹配 a标签，因为 a标签在其他地方也有，这样我们就还需要做其他的处理，增加我们的难度。现在我们了解了正则结构体的选择，我们一起来看看 httpclient + 正则表达式方式提取的代码：

/**
 * httpclient + 正则表达式 获取虎扑新闻列表页
 * @param url 虎扑新闻列表页url
 */
public void httpClientList(String url){
 try {
  CloseableHttpClient httpclient = HttpClients.createDefault();
  HttpGet httpGet = new HttpGet(url);
  CloseableHttpResponse response = httpclient.execute(httpGet);
  if (response.getStatusLine().getStatusCode() == 200) {
   HttpEntity entity = response.getEntity();
   String body = EntityUtils.toString(entity,"utf-8");
 
   if (body!=null) {
     /*
     * 替换掉换行符、制表符、回车符，去掉这些符号，正则表示写起来更简单一些
     * 只有空格符号和其他正常字体
     */
    Pattern p = Pattern.compile("\t|\r|\n");
    Matcher m = p.matcher(body);
    body = m.replaceAll("");
    /*
     * 提取列表页的正则表达式
     * 去除换行符之后的 li
     *                    与球迷亲切互动！凯尔特人官方晒球队开放训练日照片         
        
     */
    Pattern pattern = Pattern
      .compile("\\s* \\s* (.*?)\\s* 
\\s* " );

    Matcher matcher = pattern.matcher(body);
    // 匹配出所有符合正则表达式的数据
    while (matcher.find()){
//      String info = matcher.group(0);
//      System.out.println(info);
     // 提取出链接和标题
     System.out.println("详情页链接："+matcher.group(1)+" ,详情页标题："+matcher.group(2));
    }
   }else {
    System.out.println("处理失败！！！获取正文内容为空");
   }
  } else {
   System.out.println("处理失败！！！返回状态码：" + response.getStatusLine().getStatusCode());
  }
 }catch (Exception e){
  e.printStackTrace();
 }

}

从代码的行数可以看出，比 Jsoup 方式要多不少，代码虽然多，但是整体来说比较简单，在上面方法中我做了一段特殊处理，我先替换了 httpclient 获取的字符串 body 中的换行符、制表符、回车符，因为这样处理，在编写正则表达式的时候能够减少一些额外的干扰。接下来我们修改 main 方法，运行 httpClientList 方法。

public static void main(String[] args) {
 String url = "https://voice.hupu.com/nba";
 CrawlerBase crawlerBase = new CrawlerBase();
//  crawlerBase.jsoupList(url);
 crawlerBase.httpClientList(url);
}

运行结果如下图所示：

使用 httpclient + 正则表达式的方式同样正确的获取到了列表新闻的标题和详情页链接。到此 Java 爬虫系列博文第一篇就写完了，这一篇主要是 Java 网络爬虫的入门，我们使用了 jsoup 和 httpclient + 正则的方式提取了虎扑列表新闻的新闻标题和详情页链接。当然这里还有很多没有完成，比如采集详情页信息存入数据库等。

源代码：点击这里

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
从UWP和ASP.NET 5引用类库

如何解决《从UWP和ASP.NET5引用类库》经验，为你挑选了1个好方法。 ... [详细]
程序员
谷歌地图api v3按州计算里程数

如何解决《谷歌地图apiv3按州计算里程数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UICollectionViewCell上创建视差焦点效果

如何解决《在UICollectionViewCell上创建视差焦点效果》经验，为你挑选了2个好方法。 ... [详细]
程序员
Phoenix应用程序如何仅针对在多台计算机上使用通道规模进行定制？使用HAProxy？如何向所有节点广播消息？

如何解决《Phoenix应用程序如何仅针对在多台计算机上使用通道规模进行定制？使用HAProxy？如何向所有节点广播消息？》经验，为你挑选了1个好方法。 ... [详细]
程序员
一种在Java中创建新实例的有趣方法

如何解决《一种在Java中创建新实例的有趣方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何阻止Intellij自动更改尚未编辑的行上的缩进？

如何解决《如何阻止Intellij自动更改尚未编辑的行上的缩进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Lumen(Laravel)中是否可以使用西里尔符号？

如何解决《在Lumen(Laravel)中是否可以使用西里尔符号？》经验，为你挑选了1个好方法。 ... [详细]
程序员
对于仅使用JSON的后端REST应用程序,CSRF是强制性的吗？

如何解决《对于仅使用JSON的后端REST应用程序,CSRF是强制性的吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
AWS:通过boto3发布Lambda函数的SNS消息(Python2)

如何解决《AWS:通过boto3发布Lambda函数的SNS消息(Python2)》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么Getopt :: Long没有初始化任何值？

如何解决《为什么Getopt::Long没有初始化任何值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在两个兄弟姐妹之间应用CSS样式？

如何解决《有没有办法在两个兄弟姐妹之间应用CSS样式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript将表导出到MS Excel,在MS Edge上无效

如何解决《使用Javascript将表导出到MSExcel,在MSEdge上无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
未列出MSSQLLOCALDB数据库

如何解决《未列出MSSQLLOCALDB数据库》经验，为你挑选了1个好方法。 ... [详细]
程序员
Web开发中间件自动重新加载

如何解决《Web开发中间件自动重新加载》经验，为你挑选了0个好方法。 ... [详细]
程序员
我何时应该使用GCM设备组与主题？

如何解决《我何时应该使用GCM设备组与主题？》经验，为你挑选了0个好方法。 ... [详细]
程序员
EF7如何处理嵌套实体的更新操作

如何解决《EF7如何处理嵌套实体的更新操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
在材质设计精简版中创建一个带可编辑数字字段的滑块

如何解决《在材质设计精简版中创建一个带可编辑数字字段的滑块》经验，为你挑选了1个好方法。 ... [详细]
程序员
Showfreqs和showwaves在背景图像？

如何解决《Showfreqs和showwaves在背景图像？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我们可以抽象出类型类吗？

如何解决《我们可以抽象出类型类吗？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在pandas DataFrame中重新排序MultiIndex的级别

如何解决《在pandasDataFrame中重新排序MultiIndex的级别》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402852387

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站