JAVA使用爬虫抓取网站网页内容的方法

作者：k78283381 | 2022-10-27 17:41

这篇文章主要介绍了JAVA使用爬虫抓取网站网页内容的方法,实例分析了java爬虫的两种实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法。分享给大家供大家参考。具体如下：

最近在用JAVA研究下爬网技术,呵呵，入了个门,把自己的心得和大家分享下
以下提供二种方法，一种是用apache提供的包．另一种是用JAVA自带的.

代码如下:

// 第一种方法
//这种方法是用apache提供的包,简单方便
//但是要用到以下包:commons-codec-1.4.jar
// commons-httpclient-3.1.jar
// commons-logging-1.0.4.jar
public static String createhttpClient(String url, String param) {
  HttpClient client = new HttpClient();
  String response = null;
  String keyword = null;
  PostMethod postMethod = new PostMethod(url);
//  try {
//   if (param != null)
//    keyword = new String(param.getBytes("gb2312"), "ISO-8859-1");
//  } catch (UnsupportedEncodingException e1) {
//   // TODO Auto-generated catch block
//   e1.printStackTrace();
//  }
  // NameValuePair[] data = { new NameValuePair("keyword", keyword) };
  // // 将表单的值放入postMethod中
  // postMethod.setRequestBody(data);
  // 以上部分是带参数抓取,我自己把它注销了．大家可以把注销消掉研究下
  try {
   int statusCode = client.executeMethod(postMethod);
   response = new String(postMethod.getResponseBodyAsString()
     .getBytes("ISO-8859-1"), "gb2312");
     //这里要注意下 gb2312要和你抓取网页的编码要一样
   String p = response.replaceAll("//&[a-zA-Z]{1,10};", "")
     .replaceAll("<[^>]*>", "");//去掉网页中带有html语言的标签
   System.out.println(p);
  } catch (Exception e) {
   e.printStackTrace();
  }
  return response;
}
// 第二种方法
// 这种方法是JAVA自带的URL来抓取网站内容
public String getPageContent(String strUrl, String strPostRequest,
   int maxLength) {
  // 读取结果网页
  StringBuffer buffer = new StringBuffer();
  System.setProperty("sun.net.client.defaultConnectTimeout", "5000");
  System.setProperty("sun.net.client.defaultReadTimeout", "5000");
  try {
   URL newUrl = new URL(strUrl);
   HttpURLConnection hConnect = (HttpURLConnection) newUrl
     .openConnection();
   // POST方式的额外数据
   if (strPostRequest.length() > 0) {
    hConnect.setDoOutput(true);
    OutputStreamWriter out = new OutputStreamWriter(hConnect
      .getOutputStream());
    out.write(strPostRequest);
    out.flush();
    out.close();
   }
   // 读取内容
   BufferedReader rd = new BufferedReader(new InputStreamReader(
     hConnect.getInputStream()));
   int ch;
   for (int length = 0; (ch = rd.read()) > -1
     && (maxLength <= 0 || length < maxLength); length++)
    buffer.append((char) ch);
   String s = buffer.toString();
   s.replaceAll("//&[a-zA-Z]{1,10};", "").replaceAll("<[^>]*>", "");
   System.out.println(s);
   rd.close();
   hConnect.disconnect();
   return buffer.toString().trim();
  } catch (Exception e) {
   // return "错误:读取网页失败！";
   //
   return null;
  }
}

然后写个测试类:

public static void main(String[] args) {
  String url = "https://www.jb51.net";
  String keyword = "";
  createhttpClient p = new createhttpClient();
  String response = p.createhttpClient(url, keyword);
  // 第一种方法
  // p.getPageContent(url, "post", 100500);//第二种方法
}

呵呵，看看控制台吧,是不是把网页的内容获取了

希望本文所述对大家的java程序设计有所帮助。

推荐阅读

程序员
添加矢量中相同的值

如何解决《添加矢量中相同的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xcode中的UITests之间保持应用程序打开

如何解决《如何在Xcode中的UITests之间保持应用程序打开》经验，为你挑选了2个好方法。 ... [详细]
程序员
D3找到线的角度

如何解决《D3找到线的角度》经验，为你挑选了1个好方法。 ... [详细]
程序员
邮件合并复选框形式字段

如何解决《邮件合并复选框形式字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
golang将一个字符串添加到切片... interface {}

如何解决《golang将一个字符串添加到切片interface{}》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以使用SpriteKit在应用程序上使用Xcode UI Testing？

如何解决《是否可以使用SpriteKit在应用程序上使用XcodeUITesting？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将<script>中的字符串插入<a href="">

如何解决《将<script>中的字符串插入<ahref="">》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中seaborn tsplot函数中的标准偏差和误差条

如何解决《Python中seaborntsplot函数中的标准偏差和误差条》经验，为你挑选了2个好方法。 ... [详细]
程序员
我可以使用TensorFlow测量单个操作的执行时间吗？

如何解决《我可以使用TensorFlow测量单个操作的执行时间吗？》经验，为你挑选了5个好方法。 ... [详细]
程序员
类型动画师的预期资源[ResourceType]

如何解决《类型动画师的预期资源[ResourceType]》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jekyll：在SCSS部分中使用_config.yml中的值

如何解决《Jekyll：在SCSS部分中使用_config.yml中的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用HttpsUrlConnection而不是DefaultHttpClient

如何解决《如何使用HttpsUrlConnection而不是DefaultHttpClient》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用RxAndroid安排

如何解决《使用RxAndroid安排》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Python中创建类的不同实例？

如何解决《如何在Python中创建类的不同实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用.translate()从Python 3.x中的字符串中删除标点符号？

如何解决《如何使用.translate()从Python3.x中的字符串中删除标点符号？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Jmeter MarshalException:错误编组参数

如何解决《JmeterMarshalException:错误编组参数》经验，为你挑选了0个好方法。 ... [详细]
程序员
C ++ JSON解串器

如何解决《C++JSON解串器》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用CSS实现单行省略号

如何解决《如何用CSS实现单行省略号》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让UITextView检测主题标签？

如何解决《如何让UITextView检测主题标签？》经验，为你挑选了2个好方法。 ... [详细]
程序员
删除重复项而不覆盖hashCode()

如何解决《删除重复项而不覆盖hashCode()》经验，为你挑选了1个好方法。 ... [详细]

k78283381

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章