8赞

java 爬虫详解及简单实例

作者：牛尾巴2010 | 2022-02-03 01:29

这篇文章主要介绍了java爬虫详解及简单实例的相关资料,需要的朋友可以参考下

Java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。

打开网页：

URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);

读取网页内容：

BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));

正则表达式进行匹配：

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果：

List list = new ArrayList();

/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {

  public static void main(String[] args) throws IOException {
//    List list = getMails();
//    for(String mail : list){
//      System.out.println(mail);
//    }
  
    List list = getMailsByWeb();
    for(String mail : list){
      System.out.println(mail);
    }
  }

  public static List getMailsByWeb() throws IOException{
    //1,读取源文件。
    //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
    //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
    URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");

    BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List list = new ArrayList();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static List getMails() throws IOException{
    //1,读取源文件。
    BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List list = new ArrayList();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

推荐阅读

程序员
链接是什么:功能"参数"(范围,元素,attrs)？AngularJS

如何解决《链接是什么:功能"参数"(范围,元素,attrs)？AngularJS》经验，为你挑选了1个好方法。 ... [详细]
程序员
添加id并使用它的jquery脚本不起作用

如何解决《添加id并使用它的jquery脚本不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
plotly js:如何在加载绘图图像后运行我的javascript

如何解决《plotlyjs:如何在加载绘图图像后运行我的javascript》经验，为你挑选了0个好方法。 ... [详细]
程序员
Stata访问元素作为标量或宏的矩阵

如何解决《Stata访问元素作为标量或宏的矩阵》经验，为你挑选了1个好方法。 ... [详细]
程序员
重构Ruby

如何解决《重构Ruby》经验，为你挑选了1个好方法。 ... [详细]
程序员
java:如何为变量自动生成自定义方法

如何解决《java:如何为变量自动生成自定义方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
自定义URI方案和Skype链接

如何解决《自定义URI方案和Skype链接》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法关闭JIT编译器,这样做会对性能产生影响吗？

如何解决《有没有办法关闭JIT编译器,这样做会对性能产生影响吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
因大小而无法上传文件

如何解决《因大小而无法上传文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
当键盘出现在swift中时,向上滚动UITableView

如何解决《当键盘出现在swift中时,向上滚动UITableView》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android上的Cordova全屏启动画面仍显示标题栏

如何解决《Android上的Cordova全屏启动画面仍显示标题栏》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swing Ui倍增面板重影

如何解决《SwingUi倍增面板重影》经验，为你挑选了1个好方法。 ... [详细]
程序员
移动到vim中行中给定字符的最后一个实例？

如何解决《移动到vim中行中给定字符的最后一个实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
应用程序在HttpLoggingInterceptor上崩溃

如何解决《应用程序在HttpLoggingInterceptor上崩溃》经验，为你挑选了1个好方法。 ... [详细]
程序员
docker组合中'image'和'build'之间的区别

如何解决《docker组合中'image'和'build'之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android 6.0.1上的Spinner内部填充更大

如何解决《Android6.0.1上的Spinner内部填充更大》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python中将浮点数舍入到最接近的整数

如何解决《如何在Python中将浮点数舍入到最接近的整数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在换行符和逗号上拆分字符串

如何解决《在换行符和逗号上拆分字符串》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Ninject获取实例

如何解决《使用Ninject获取实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UWP App中编码/解码url字符串

如何解决《如何在UWPApp中编码/解码url字符串》经验，为你挑选了1个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章