8赞

Java - 下载网页源html的最佳方式

作者：勤奋的瞌睡猪_715 | 2023-06-23 12:48

如何解决《Java-下载网页源html的最佳方式》经验，为你挑选了1个好方法。

我正在写一个小爬虫.下载网页源html的最佳方法是什么？我目前正在使用下面的一小段代码,但有时候结果只是页面源的一半!我不知道是什么问题.有些人建议我应该使用Jsoup但是如果它太长,使用Jsoup中的.get.html()函数也会返回页面源的一半.由于我正在编写一个爬虫,因此该方法支持unicode(UTF-8)非常重要,效率也非常重要.我想知道最好的现代方式,所以我问你们,因为我是Java的新手.谢谢.

码:

public static String downloadPage(String url)
    {
        try
        {
            URL pageURL = new URL(url);
            StringBuilder text = new StringBuilder();
            Scanner scanner = new Scanner(pageURL.openStream(), "utf-8");
            try {
                while (scanner.hasNextLine()){
                    text.append(scanner.nextLine() + NL);
                }
            }
            finally{
                scanner.close();
            }
            return text.toString();
        }
        catch(Exception ex)
        {
            return null;
        }
    }

Bozho.. 5

我用commons-io String html = IOUtils.toString(url.openStream(), "utf-8");

1> Bozho..：

我用commons-io String html = IOUtils.toString(url.openStream(), "utf-8");

推荐阅读

程序员
React - 如何仅捕获父级的onClick事件而不是子级

如何解决《React-如何仅捕获父级的onClick事件而不是子级》经验，为你挑选了3个好方法。 ... [详细]
程序员
子类的对象创建是否创建了超类的对象,如果是,是否可以在子类中访问它？

如何解决《子类的对象创建是否创建了超类的对象,如果是,是否可以在子类中访问它？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Node.js sqlite3 IN运算符

如何解决《Node.jssqlite3IN运算符》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Magento2中获取当前货币符号

如何解决《在Magento2中获取当前货币符号》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Ramda/LoDash/Underscore在嵌套属性上进行独特分组和计数

如何解决《使用Ramda/LoDash/Underscore在嵌套属性上进行独特分组和计数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java流.orElseThrow

如何解决《Java流.orElseThrow》经验，为你挑选了1个好方法。 ... [详细]
程序员
Tensorflow中的同步与异步计算

如何解决《Tensorflow中的同步与异步计算》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jenkins powershell插件总是成功构建

如何解决《Jenkinspowershell插件总是成功构建》经验，为你挑选了2个好方法。 ... [详细]
程序员
RxJava和Retrofit2:NetworkOnMainThreadException

如何解决《RxJava和Retrofit2:NetworkOnMainThreadException》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用php从mysql数据库访问特定值？

如何解决《如何使用php从mysql数据库访问特定值？》经验，为你挑选了0个好方法。 ... [详细]
程序员
'x << ~y'在JavaScript中代表什么？

如何解决《'x<<~y'在JavaScript中代表什么？》经验，为你挑选了5个好方法。 ... [详细]
程序员
gulp local和CLI版本不匹配

如何解决《gulplocal和CLI版本不匹配》经验，为你挑选了1个好方法。 ... [详细]
程序员
在不使用jQuery的情况下将表转换为JavaScript中的数组

如何解决《在不使用jQuery的情况下将表转换为JavaScript中的数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
重载C++ new运算符时的大小信息

如何解决《重载C++new运算符时的大小信息》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java接口:根据对象类型调用实现类

如何解决《Java接口:根据对象类型调用实现类》经验，为你挑选了1个好方法。 ... [详细]
程序员
python如何在列表中返回第一个value = true？

如何解决《python如何在列表中返回第一个value=true？》经验，为你挑选了1个好方法。 ... [详细]
程序员
非控制器类的ActionResult

如何解决《非控制器类的ActionResult》经验，为你挑选了0个好方法。 ... [详细]
程序员
Jquery - 双击时遇到麻烦,因为课堂上有变化

如何解决《Jquery-双击时遇到麻烦,因为课堂上有变化》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用WooCommerce产品搜索搜索特定的post_type表单post_type列时出错

如何解决《使用WooCommerce产品搜索搜索特定的post_type表单post_type列时出错》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++:洛伦兹因子方程

如何解决《C++:洛伦兹因子方程》经验，为你挑选了1个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章