零基础写Java知乎爬虫之将抓取的内容存储到本地

作者：围脖上的博博_771 | 2022-02-03 04:44

上一回我们说到了如何把知乎的某些内容爬取出来，那么这一回我们就说说怎么把这些内容存储到本地吧。

说到Java的本地存储，肯定使用IO流进行操作。
首先，我们需要一个创建文件的函数createNewFile：

复制代码代码如下:

public static boolean createNewFile(String filePath) {  

        boolean isSuccess = true;  

        // 如有则将"\\"转为"/",没有则不产生任何变化  

        String filePathTurn = filePath.replaceAll("\\\\", "/");  

        // 先过滤掉文件名  

        int index = filePathTurn.lastIndexOf("/");  

        String dir = filePathTurn.substring(0, index);  

        // 再创建文件夹  

        File fileDir = new File(dir);  

        isSuccess = fileDir.mkdirs();  

        // 创建文件  

        File file = new File(filePathTurn);  

        try {  

            isSuccess = file.createNewFile();  

        } catch (IOException e) {  

            isSuccess = false;  

            e.printStackTrace();  

        }  

        return isSuccess;  

    }

然后，我们需要一个写入文件的函数：

复制代码代码如下:

public static boolean writeIntoFile(String content, String filePath,  

            boolean isAppend) {  

        boolean isSuccess = true;  

        // 先过滤掉文件名  

        int index = filePath.lastIndexOf("/");  

        String dir = filePath.substring(0, index);  

        // 创建除文件的路径  

        File fileDir = new File(dir);  

        fileDir.mkdirs();  

        // 再创建路径下的文件  

        File file = null;  

        try {  

            file = new File(filePath);  

            file.createNewFile();  

        } catch (IOException e) {  

            isSuccess = false;  

            e.printStackTrace();  

        }  

        // 写入文件  

        FileWriter fileWriter = null;  

        try {  

            fileWriter = new FileWriter(file, isAppend);  

            fileWriter.write(content);  

            fileWriter.flush();  

        } catch (IOException e) {  

            isSuccess = false;  

            e.printStackTrace();  

        } finally {  

            try {  

                if (fileWriter != null)  

                    fileWriter.close();  

            } catch (IOException e) {  

                e.printStackTrace();  

            }  

        }  

        return isSuccess;  

    }

我们把这两个函数封装到一个FileReaderWriter.java文件中以便后续使用。
接着我们回到知乎爬虫中。
我们需要给知乎的Zhihu封装类加个函数，用来格式化写入到本地时的排版。

复制代码代码如下:

public String writeString() {  

        String result = "";  

        result += "问题：" + question + "\r\n";  

        result += "描述：" + questionDescription + "\r\n";  

        result += "链接：" + zhihuUrl + "\r\n";  

        for (int i = 0; i < answers.size(); i++) {  

            result += "回答" + i + "：" + answers.get(i) + "\r\n";  

        }  

        result += "\r\n\r\n";  

        return result;  

}

OK，这样就差不多了，接下来吧mian方法中的System.out.println改成

复制代码代码如下:

// 写入本地  

        for (Zhihu zhihu : myZhihu) {  

            FileReaderWriter.writeIntoFile(zhihu.writeString(),  

                    "D:/知乎_编辑推荐.txt", true);  

        }

运行，便可以看到本来在控制台看到的内容已经被写到了本地的txt文件里：

大体一看没什么问题，仔细看看发现问题：存在太多的html标签，主要是和
。
我们可以在输出的时候对这些标记进行处理。
先把
换成io流里面的\r\n，再把所有的html标签都删除，这样看起来便会清晰很多。

复制代码代码如下:

public String writeString() {
    // 拼接写入本地的字符串
    String result = "";
    result += "问题：" + question + "\r\n";
    result += "描述：" + questionDescription + "\r\n";
    result += "链接：" + zhihuUrl + "\r\n";
    for (int i = 0; i < answers.size(); i++) {
        result += "回答" + i + "：" + answers.get(i) + "\r\n\r\n";
    }
    result += "\r\n\r\n\r\n\r\n";
    // 将其中的html标签进行筛选
    result = result.replaceAll("
", "\r\n");
    result = result.replaceAll("<.*?>", "");
    return result;
}

这里的replaceAll函数可以使用正则，于是所有的<>标签在最后就都被删除了。

推荐阅读

程序员
为什么Webpack在每行之前输出奇怪的注释？

如何解决《为什么Webpack在每行之前输出奇怪的注释？》经验，为你挑选了0个好方法。 ... [详细]

程序员
Simple Injector是否可以通过对象工厂注册RegisterConditional？

如何解决《SimpleInjector是否可以通过对象工厂注册RegisterConditional？》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何使多次启动的NSTimer无效

如何解决《如何使多次启动的NSTimer无效》经验，为你挑选了1个好方法。 ... [详细]

程序员
类库中的控制台应用程序参考

如何解决《类库中的控制台应用程序参考》经验，为你挑选了1个好方法。 ... [详细]

程序员
选择兄弟的文本

如何解决《选择兄弟的文本》经验，为你挑选了1个好方法。 ... [详细]

程序员
Spring Security:如何将重定向查询参数添加到登录URL以允许页面加书签？

如何解决《SpringSecurity:如何将重定向查询参数添加到登录URL以允许页面加书签？》经验，为你挑选了1个好方法。 ... [详细]

程序员
GStreamer - 从Raspberry到VLC-PC的网络摄像头流

如何解决《GStreamer-从Raspberry到VLC-PC的网络摄像头流》经验，为你挑选了1个好方法。 ... [详细]

程序员
c ++支持模板元编程中的最后一次调用优化

如何解决《c++支持模板元编程中的最后一次调用优化》经验，为你挑选了0个好方法。 ... [详细]

程序员
一个ACE编辑器的瘦包装器,用于制作React组件

如何解决《一个ACE编辑器的瘦包装器,用于制作React组件》经验，为你挑选了1个好方法。 ... [详细]

程序员
用PyBrain神经网络预测时间序列数据

如何解决《用PyBrain神经网络预测时间序列数据》经验，为你挑选了1个好方法。 ... [详细]

程序员
CSS覆盖规则

如何解决《CSS覆盖规则》经验，为你挑选了1个好方法。 ... [详细]

程序员
using语句外的SQL Connection构造函数

如何解决《using语句外的SQLConnection构造函数》经验，为你挑选了1个好方法。 ... [详细]

程序员
在MATLAB中反表制函数

如何解决《在MATLAB中反表制函数》经验，为你挑选了1个好方法。 ... [详细]

程序员
MQTT:每分钟MQTT客户端轮询服务器多少次？

如何解决《MQTT:每分钟MQTT客户端轮询服务器多少次？》经验，为你挑选了1个好方法。 ... [详细]

程序员
如何在Angular 2中将对象从一个组件传递到另一个组件？

如何解决《如何在Angular2中将对象从一个组件传递到另一个组件？》经验，为你挑选了3个好方法。 ... [详细]

程序员
如何在Xamarin.Android上处理三倍（或配置的数字）轻击手势？

如何解决《如何在Xamarin.Android上处理三倍（或配置的数字）轻击手势？》经验，为你挑选了1个好方法。 ... [详细]

程序员
从控制器触发模态弹出窗口

如何解决《从控制器触发模态弹出窗口》经验，为你挑选了1个好方法。 ... [详细]

程序员
表之间的多对多关系 - 如何在SQL中建模

如何解决《表之间的多对多关系-如何在SQL中建模》经验，为你挑选了1个好方法。 ... [详细]

程序员
升级到php-7后"调用未定义的函数mysql_connect()"

如何解决《升级到php-7后"调用未定义的函数mysql_connect()"》经验，为你挑选了1个好方法。 ... [详细]

程序员
将现有Watchkit应用程序更新为WatchOS2

如何解决《将现有Watchkit应用程序更新为WatchOS2》经验，为你挑选了0个好方法。 ... [详细]

吐了个 "CAO" !

吐个槽吧,看都看了

会员登录 | 用户注册

围脖上的博博_771

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

asp.net

c#

c++

c语言

django

go

golang

java

lavarel

lua

mvc

mysql

nginx

node.js

php

python

redis

ruby

rust

ssl

swoole

vb

爬虫

RankList | 热门文章

1为什么我的活动空无一人？

2GoogleApiClient具有可选的Plus.API,并且未与Play服务8.3中引入的新Google标志连接到Plus

3如何在laravel中保存使用条件？

4没有RTTI但仍然是虚拟方法

5当应用程序在设备上运行时,无法获取uiautomator工具中的元素

6动态添加脚本时未定义$/jQuery

7如何在不打印的情况下在Matlab循环中监视变量？

8将C#List <string>转换为Javascript

9如何在recyclelerView向下滚动时折叠后隐藏工具栏

10ConcurrentQueue允许我等待一个生产者

11Swift选项 - 从'x'到'x'的条件转换警告总是成功

12使用秒表倒计时

13是否可以在chrome中使浏览器看起来像打印页面

14控件模板:如何创建绑定

15点击一个可疑的div剧照外面的焦点？

16箭头功能中的默认参数值

17使用Gradle预编译JSP

18配置Mocha来查找`.jsx` /`.es6`文件

19即使AngularJS和PHP的凭据不正确,登录仍然会指示

20可以在PHP7下运行symfony 1.4吗？