本文实例讲述了Python 实现的微信爬虫。分享给大家供大家参考,具体如下:
单线程版:
import urllib.request import urllib.parse import urllib.error import re,time headers = ("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3107.4 Safari/537.36") operner = urllib.request.build_opener() operner.addheaders = [headers] urllib.request.install_opener(operner) list_url = [] ###使用代理获取网页url内容 def use_proxy(url): try: # proxy = urllib.request.ProxyHandler({'http':proxy_addr}) ##使用代理版 # operner = urllib.request.build_opener() # urllib.request.install_opener(operner) headers = ("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3107.4 Safari/537.36") operner = urllib.request.build_opener() operner.addheaders = [headers] urllib.request.install_opener(operner) data = urllib.request.urlopen(url).read().decode('utf-8') # print (data) return data except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) elif hasattr(e, "reason"): print(e.reason) except Exception as e: print("exception" + str(e)) time.sleep(1) ##获取要爬取的url def get_url(key, pagestart, pageend): try: keycode = urllib.parse.quote(key) for page in range(pagestart, pageend + 1): url = "http://weixin.sogou.com/weixin?query=%s&_sug_type_=&s_from=input&_sug_=n&type=%d&page=1&ie=utf8" % ( keycode, page) data1 = use_proxy(url) #print("data1的内容是", data1) listurl_pattern = '.*?("http://.*?)
' result = re.compile(listurl_pattern, re.S).findall(data1) for i in range(len(result)): res = result[i].replace("amp;", "").split(" ")[0].replace("\"", "") list_url.append(res) #print(list_url) return list_url except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) elif hasattr(e, "reason"): print(e.reason) except Exception as e: print("exception:", e) ##通过获取的url爬行内容数据并处理 def get_url_content(list_url): fh1=open("D:\\python-script\\1.html", 'wb') html1 = '''\n\n\n\n微信文章 \n''' fh1.write(html1.encode("utf-8")) fh1.close() fh = open("D:\\python-script\\1.html", 'ab') for url in list_url: data_content = use_proxy(url) #print (data_content) #sys.exit() title_pattern = '.*?' result_title = re.compile(title_pattern, re.S).findall(data_content) ##标题(str) res_title = result_title[0].replace(" ", "").replace("
", "").strip() content_pattern = 'id="js_content">(.*?)' content = re.compile(content_pattern, re.S).findall(data_content) try: fh.write(res_title.encode("utf-8")) for i in content: fh.write(i.strip().encode("utf-8")) except UnicodeEncodeError as e: continue fh.write("".encode("utf-8")) if __name__ == '__main__': pagestart = 1 pageend = 2 key = "人工智能" get_url(key, pagestart, pageend) get_url_content(list_url)多线程版:
import urllib.request import urllib.parse import urllib.error import re,time import queue import threading headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3107.4 Safari/537.36") operner = urllib.request.build_opener() operner.addheaders = [headers] urllib.request.install_opener(operner) urlque = queue.Queue() list_url = [] ###使用代理获取网页url内容 def use_proxy(url): try: # proxy = urllib.request.ProxyHandler({'http':proxy_addr}) # operner = urllib.request.build_opener() # urllib.request.install_opener(operner) headers = ("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3107.4 Safari/537.36") operner = urllib.request.build_opener() operner.addheaders = [headers] urllib.request.install_opener(operner) data = urllib.request.urlopen(url).read().decode('utf-8') #print (data) return data except urllib.error.URLError as e: if hasattr(e,"code"): print (e.code) elif hasattr(e,"reason"): print (e.reason) except Exception as e: print ("exception"+str(e)) time.sleep(1) ###获取文章的url连接,并将连接加入到队列 class get_url(threading.Thread): def __init__(self,key,pagestart,pageend,urlque): threading.Thread.__init__(self) self.pagestart = pagestart self.pageend = pageend self.key = key self.urlque = urlque def run(self): try: keycode = urllib.parse.quote(self.key) for page in range(self.pagestart,self.pageend+1): url = "http://weixin.sogou.com/weixin?query=%s&_sug_type_=&s_from=input&_sug_=n&type=%d&page=1&ie=utf8" % (keycode,page) data = use_proxy(url) print ("data1的内容是",data) listurl_pattern = '.*?("http://.*?)
' result = re.compile(listurl_pattern,re.S).findall(data) print (result) if len(result) == 0: print ("没有可用的url") sys.exit() for i in range(len(result)): res = result[i].replace("amp;","").split(" ")[0].replace("\"" ,"") #list_url.append(res) #加入列表 self.urlque.put(res) ##加入队列 self.urlque.task_done() #return list_url except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) elif hasattr(e, "reason"): print(e.reason) except Exception as e: print ("exception:",e) ##根据url获取文章内容 class get_url_content(threading.Thread): def __init__(self,urlque): threading.Thread.__init__(self) self.urlque = urlque def run(self): fh1 = open("D:\\python-script\\1.html", 'wb') html1 = '''\n\n\n\n微信文章 \n''' fh1.write(html1.encode("utf-8")) fh1.close() fh = open("D:\\python-script\\1.html", 'ab') while True: try: url = self.urlque.get() data_content = use_proxy(url) title_pattern = '.*?' result_title = re.compile(title_pattern, re.S).findall(data_content) ##标题 res_title = result_title[0].replace(" ", "").replace("
","").strip() content_pattern = 'id="js_content">(.*?)' content = re.compile(content_pattern, re.S).findall(data_content) #c = '' # for i in content: # ##内容 # c_content=i.replace(c, "").replace("
", "").replace("", "") fh.write(res_title.encode("utf-8")) for i in content: fh.write(i.strip().encode("utf-8")) except UnicodeEncodeError as e: continue fh.close() class contrl(threading.Thread): def __init__(self,urlqueue): threading.Thread.__init__(self) self.urlqueue = urlqueue while True: print ("程序正在执行") if self.urlqueue.empty(): time.sleep(3) print ("程序执行完毕") exit() if __name__ == '__main__': pagestart = 1 pageend = 2 key = "人工智能" get_url = get_url(key,pagestart,pageend,urlque) get_url.start() get_content = get_url_content(urlque) get_content.start() cntrol = contrl(urlque) cntrol.start()更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
推荐阅读
如何解决《使用matplotlib平滑imshow情节》经验,为你挑选了1个好方法。 ... [详细] 如何解决《如何将资源文件打包到可运行的jar中》经验,为你挑选了1个好方法。 ... [详细] 如何解决《ERRSlotxxx已经忙了(Redis::CommandError)》经验,为你挑选了1个好方法。 ... [详细] 如何解决《需要帮助识别此代码中使用的"覆盖方法"模式》经验,为你挑选了1个好方法。 ... [详细] 如何解决《android:ellipsize="end"和android:maxEms无效》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Delphi2009:组件对象属性默认值》经验,为你挑选了1个好方法。 ... [详细] 如何解决《元函数将类型转换为整数,反之亦然》经验,为你挑选了1个好方法。 ... [详细] 如何解决《添加了pod文件并推送.如何撤消?如何在Xcode和github中使用gitignore?》经验,为你挑选了2个好方法。 ... [详细] 如何解决《如何在电子邮件正文中发送R降价报告?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Postgres中的UUID主键,什么插入性能影响?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《滚动条不适用于JPane内的JScrollPanel》经验,为你挑选了1个好方法。 ... [详细] 如何解决《如何计算给定排列的词典排名》经验,为你挑选了1个好方法。 ... [详细] 如何解决《具有相同表数据的实体》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Aurelia插件和功能有什么区别?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Android:Realm+Retrofit2+Gson》经验,为你挑选了1个好方法。 ... [详细] 如何解决《将Enum.GetName()合并到LinqQuery中》经验,为你挑选了1个好方法。 ... [详细] 如何解决《GoogleCloudMessagingGroup行为》经验,为你挑选了0个好方法。 ... [详细] 如何解决《在TensorFlow中显示图表的图像?》经验,为你挑选了2个好方法。 ... [详细] 吐了个 "CAO" !Tags | 热门标签RankList | 热门文章
- 1删除R中数据框中所有列名的前两个字符
- 2XPathEvalError:lxml中matches()的未注册函数
- 3参数化类型的方法在制作通用接口工厂时不得使用本地符号错误
- 4如何通过.ajax以base64编码发布图像?
- 5是否可以为Safari View Controller提供自定义标头
- 6std ::为2D点设置自定义比较器
- 7使用pandas创建虚拟变量时,Jupyter笔记本内核会死掉
- 8如何将.each()中的值推送到jQuery中的一个数组?
- 9如何在Imageview上有selectableItemBackground?
- 10scipy.ndimage.interpolation.zoom使用类似最近邻居的算法进行缩减
- 11Swift2 UI测试 - 等待元素出现
- 12如何在FIX日志的UNIX命令中获取FIX标记之间的管道(|)分隔符?
- 13使用JSON.Net对具有混合类型的数组进行序列化/反序列化
- 14iOS模拟器渲染问题的比例为50%
- 15使用Windows Runner上载工件
- 16如何使这段代码更具功能性和可读性?
- 17使用Aurelia高效渲染大型数据表
- 18为什么在.NET/C#中将未处理的异常打印到stderr?
- 19如果它是从Windows上的另一个进程生成的,我可以关闭进程自己的句柄吗?
- 20安装Visual Studio 2015 Update 1后出现TFS Build错误
DevBox开发工具箱 | 专业的在线开发工具网站 京公网安备 11010802040832号 | 京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有