16赞

java通过Jsoup爬取网页过程详解

作者：郑谊099_448 | 2021-10-27 11:36

这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

一，导入依赖


    
      org.jsoup
      jsoup
      1.10.3
    
    
    
      org.apache.httpcomponents
      httpclient

二，编写demo类

注意不要导错包了,是org.jsoup.nodes下面的

package com.taotao.entity;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Author: TaoTao 2019/9/26
 */
public class intefaceTest {
  public static void main(String[] args) throws IOException {
    CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient
    HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//创建httpget实例

    CloseableHttpResponse response = httpClient.execute(httpGet);//执行get请求
    HttpEntity entity = response.getEntity();//获取返回实体
    String content = EntityUtils.toString(entity,"utf-8");//网页内容
    response.close();//关闭流和释放系统资源

    Jsoup.parse(content);
    Document doc = Jsoup.parse(content);//解析网页得到文档对象
    Elements elements = doc.getElementsByTag("title");//获取tag是title的所有dom文档
    Element element = elements.get(0);//获取第一个元素
    String title = element.text(); //.html是返回html
    System.out.println("网页标题："+title);
    Element element1 = doc.getElementById("site_nav_top");//获取id=site_nav_top标签
    String str = element1.text();
    System.out.println("str:"+str);
  }
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
如何比较三个双打并找到最大值,最小值和中等值？(以最短的方式)

如何解决《如何比较三个双打并找到最大值,最小值和中等值？(以最短的方式)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ionic View不会在chrome检查中显示

如何解决《IonicView不会在chrome检查中显示》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQLiteAssetHelper - 特定手机上的问题,例如OnePlus

如何解决《SQLiteAssetHelper-特定手机上的问题,例如OnePlus》经验，为你挑选了0个好方法。 ... [详细]
程序员
输入字段上的自动聚焦属性在IE 11中不起作用

如何解决《输入字段上的自动聚焦属性在IE11中不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
在iOS上使用BLE可以实现AVRCP吗？

如何解决《在iOS上使用BLE可以实现AVRCP吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Spring和Hibernate在Primefaces中执行懒惰的dataTable？

如何解决《如何使用Spring和Hibernate在Primefaces中执行懒惰的dataTable？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在AngularJS中读取JSON文件时出错

如何解决《在AngularJS中读取JSON文件时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的httpsessionstate失去了价值？

如何解决《为什么我的httpsessionstate失去了价值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker现在仍然无法在starto托管的虚拟服务器上运行吗？

如何解决《Docker现在仍然无法在starto托管的虚拟服务器上运行吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
App Links支持多个子域名

如何解决《AppLinks支持多个子域名》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何计算线程等待互斥量？

如何解决《如何计算线程等待互斥量？》经验，为你挑选了1个好方法。 ... [详细]
程序员
詹金斯:无法自动安装gradle.没有Gradle.org的版本列表

如何解决《詹金斯:无法自动安装gradle.没有Gradle.org的版本列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
防止Log4Net写入所有日志文件

如何解决《防止Log4Net写入所有日志文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elixir Phoenix flash消息不显示

如何解决《ElixirPhoenixflash消息不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS AVPlayer replaceCurrentItemWithPlayerItem:nil阻止UI线程

如何解决《iOSAVPlayerreplaceCurrentItemWithPlayerItem:nil阻止UI线程》经验，为你挑选了0个好方法。 ... [详细]
程序员
Hibernate"ManyToOne ...引用未知实体"异常

如何解决《Hibernate"ManyToOne引用未知实体"异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
docker-compose wordpress mysql连接拒绝

如何解决《docker-composewordpressmysql连接拒绝》经验，为你挑选了2个好方法。 ... [详细]
程序员
TransformException:错误:任务':app:transformClassesWithDexForDebug'的执行失败

如何解决《TransformException:错误:任务':app:transformClassesWithDexForDebug'的执行失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
基于TR ID从TD单元中删除类

如何解决《基于TRID从TD单元中删除类》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP使用标题下载图像

如何解决《PHP使用标题下载图像》经验，为你挑选了1个好方法。 ... [详细]

郑谊099_448

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章