15赞

python数据爬下来保存的位置

作者：拾味湖 | 2022-01-05 19:26

在本篇文章里小编给大家整理的是关于python数据爬下来保存的位置，需要的朋友们可以参考下。

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法，然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地，一般是文件或数据库中，但是文件形式相比要更加简单，如果只是自己写爬虫玩，可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试，基本功能还是可以实现的。花的较多的时间就是正则匹配哪里，因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注：上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容，感谢大家的学习和对的支持。

推荐阅读

程序员
如果dataSource计数可能会改变,可以同时使用reloadItemsAtIndexPaths和reloadData吗？

如何解决《如果dataSource计数可能会改变,可以同时使用reloadItemsAtIndexPaths和reloadData吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
亚马逊s3a使用Spark返回400 Bad Request

如何解决《亚马逊s3a使用Spark返回400BadRequest》经验，为你挑选了1个好方法。 ... [详细]
程序员
ViewBag里面有什么？

如何解决《ViewBag里面有什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
<p>元素中的数组,每个都是换行符？

如何解决《<p>元素中的数组,每个都是换行符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Node.js中使用RabbitMQ进行标头交换示例

如何解决《在Node.js中使用RabbitMQ进行标头交换示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在IntelliJ中加载Avro模式？

如何解决《如何在IntelliJ中加载Avro模式？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么Java同时具有CountDownLatch和CyclicBarrier？

如何解决《为什么Java同时具有CountDownLatch和CyclicBarrier？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio无法识别ES6模板字符串

如何解决《VisualStudio无法识别ES6模板字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法从Spark Submit中的JAR文件加载主类

如何解决《无法从SparkSubmit中的JAR文件加载主类》经验，为你挑选了1个好方法。 ... [详细]
程序员
番石榴版同时使用火花壳

如何解决《番石榴版同时使用火花壳》经验，为你挑选了1个好方法。 ... [详细]
程序员
VBA：崩溃后如何关闭Excel.Application

如何解决《VBA：崩溃后如何关闭Excel.Application》经验，为你挑选了1个好方法。 ... [详细]
程序员
nonptr-new-declarator中的错误表达

如何解决《nonptr-new-declarator中的错误表达》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scikit-学习自定义决策树叶类型

如何解决《Scikit-学习自定义决策树叶类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Postgres now()vs'now'in function

如何解决《Postgresnow()vs'now'infunction》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加超过10000的图像搜索的谷歌自定义搜索配额？

如何解决《如何增加超过10000的图像搜索的谷歌自定义搜索配额？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么Python 3.3+ dict排序不仅是未定义的,而且是变量的？

如何解决《为什么Python3.3+dict排序不仅是未定义的,而且是变量的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
严重：无法访问私钥文件“ /etc/ssl/private/ssl-cert-snakeoil.key”：权限被拒绝

如何解决《严重：无法访问私钥文件“/etc/ssl/private/ssl-cert-snakeoil.key”：权限被拒绝》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows程序存储器与Linux程序存储器

如何解决《Windows程序存储器与Linux程序存储器》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++从1到非常大的随机数(例如2500万)

如何解决《C++从1到非常大的随机数(例如2500万)》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的"累积差异"功能

如何解决《R中的"累积差异"功能》经验，为你挑选了1个好方法。 ... [详细]

拾味湖

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章