网络爬虫案例解析

作者：雯颜哥_135 | 2022-01-07 11:17

本文主要介绍了网络爬虫的小案例。具有很好的参考价值。下面跟着小编一起来看下吧

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径，网站针对搜索引擎爬虫的优化曾风靡一时。

网络爬虫的基本工作流程如下：

1.首先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

当然，上面说的那些我都不懂，以我现在的理解，我们请求一个网址，服务器返回给我们一个超级大文本，而我们的浏览器可以将这个超级大文本解析成我们说看到的华丽的页面

那么，我们只需要把这个超级大文本看成一个足够大的String 字符串就OK了。

下面是我的代码

package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}

我在这里使用了apache公司所提供的jsoup jar包，jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

在代码里，我们可以直接使用Jsoup类，并.出Jsoup的connect()方法，这个方法返回一个org.jsoup.Connection对象，参数则是网站的url地址，Connection对象有一个get()方法返回Document对象

document对象的select方法可以返回一个Elements对象，而Elements对象正式Element对象的集合，但select()方法需要我们传入一个String参数，这个参数就是我们的选择器

String selector="div[class=d_post_content j_d_post_content clearfix]";

我们的选择器语法类似于jquery的选择器语法，可以选取html页面中的元素，选择好后，就可以便利Elements集合，通过Element的text()方法获取html中的代码

这样，一个最简单的网络爬虫就写完了。

我选择的网址是豆瓣网，留下你的邮箱，我会给你发邮件这样一个百度贴吧，我扒的是所有人的邮箱地址

附上结果：

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，同时也希望多多支持！

推荐阅读

程序员
点击一个可疑的div剧照外面的焦点？

如何解决《点击一个可疑的div剧照外面的焦点？》经验，为你挑选了2个好方法。 ... [详细]
程序员
箭头功能中的默认参数值

如何解决《箭头功能中的默认参数值》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Gradle预编译JSP

如何解决《使用Gradle预编译JSP》经验，为你挑选了0个好方法。 ... [详细]
程序员
配置Mocha来查找`.jsx` /`.es6`文件

如何解决《配置Mocha来查找`.jsx`/`.es6`文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
即使AngularJS和PHP的凭据不正确,登录仍然会指示

如何解决《即使AngularJS和PHP的凭据不正确,登录仍然会指示》经验，为你挑选了0个好方法。 ... [详细]
程序员
可以在PHP7下运行symfony 1.4吗？

如何解决《可以在PHP7下运行symfony1.4吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PHP页面上从orientdb访问数据？

如何解决《如何在PHP页面上从orientdb访问数据？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在哪里可以找到已翻译的Linq to Entity查询到Sql

如何解决《在哪里可以找到已翻译的LinqtoEntity查询到Sql》经验，为你挑选了2个好方法。 ... [详细]
程序员
django在已清理的数据上形成预取

如何解决《django在已清理的数据上形成预取》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Unity插件中使用android jar中的context.getClassLoader.getResaurceAsStream无法访问图像

如何解决《在Unity插件中使用androidjar中的context.getClassLoader.getResaurceAsStream无法访问图像》经验，为你挑选了0个好方法。 ... [详细]
程序员
mvn release:在java 8中执行失败 - 添加了javadoc插件

如何解决《mvnrelease:在java8中执行失败-添加了javadoc插件》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用数组值将数组转换为不同的结构

如何解决《使用数组值将数组转换为不同的结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
"使用HttpClient根据验证程序,远程证书无效"

如何解决《"使用HttpClient根据验证程序,远程证书无效"》经验，为你挑选了1个好方法。 ... [详细]
程序员
awk在输出中打印一个额外的行{print $ x}

如何解决《awk在输出中打印一个额外的行{print$x}》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为qtcreator编写调试助手？

如何解决《如何为qtcreator编写调试助手？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular ui-router:按下浏览器中的后退按钮,停止控制器重新加载

如何解决《Angularui-router:按下浏览器中的后退按钮,停止控制器重新加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不能在编译时解决运行时多态？

如何解决《为什么不能在编译时解决运行时多态？》经验，为你挑选了5个好方法。 ... [详细]
程序员
Web服务连接超时和请求超时之间的差异

如何解决《Web服务连接超时和请求超时之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
命名列表时使用粘贴

如何解决《命名列表时使用粘贴》经验，为你挑选了0个好方法。 ... [详细]
程序员
ImportError:无法导入名称Pubnub

如何解决《ImportError:无法导入名称Pubnub》经验，为你挑选了1个好方法。 ... [详细]

雯颜哥_135

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章