2赞

python 爬虫批量获取代理ip的实例代码

作者：wurtjq | 2022-02-22 17:08

今天小编就为大家分享一篇python爬虫批量获取代理ip的实例代码，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

实例如下所示：

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*\s*\s*(\d{1,})\s*\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫批量获取代理ip的实例代码就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
Eclipse Mars:无法解析导入org.osgi

如何解决《EclipseMars:无法解析导入org.osgi》经验，为你挑选了1个好方法。 ... [详细]
程序员
ES6类方法在内部引用类实例的最有效方法

如何解决《ES6类方法在内部引用类实例的最有效方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTML,身高100%不起作用

如何解决《HTML,身高100%不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在获取"无法解决放置符号"错误时向Hashmap添加键和值

如何解决《如何在获取"无法解决放置符号"错误时向Hashmap添加键和值》经验，为你挑选了1个好方法。 ... [详细]
程序员
tvos:UITextView焦点外观像电影App

如何解决《tvos:UITextView焦点外观像电影App》经验，为你挑选了0个好方法。 ... [详细]
程序员
QML：即使drag属性处于活动状态，也不会调用onDragStarted / finish

如何解决《QML：即使drag属性处于活动状态，也不会调用onDragStarted/finish》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用enable_if进行C++模板重载:使用g ++和clang进行不同的行为

如何解决《使用enable_if进行C++模板重载:使用g++和clang进行不同的行为》经验，为你挑选了0个好方法。 ... [详细]
程序员
C++ atoi返回错误的值

如何解决《C++atoi返回错误的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法将数据推送到Firebase onclick

如何解决《无法将数据推送到Firebaseonclick》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Symfony2中使用Beip与Liip\FunctionalTestBundle？

如何解决《如何在Symfony2中使用Beip与Liip\FunctionalTestBundle？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在transformClassesWithDexForDebug上Gradle构建缓慢

如何解决《在transformClassesWithDexForDebug上Gradle构建缓慢》经验，为你挑选了4个好方法。 ... [详细]
程序员
Java代理 - 无法正确地从HTTP GET/POST请求交换数据

如何解决《Java代理-无法正确地从HTTPGET/POST请求交换数据》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Django 1.9中传递callable

如何解决《如何在Django1.9中传递callable》经验，为你挑选了1个好方法。 ... [详细]
程序员
谷歌地理编码api不如使用地址的谷歌地图准确

如何解决《谷歌地理编码api不如使用地址的谷歌地图准确》经验，为你挑选了0个好方法。 ... [详细]
程序员
以数组形式访问返回的值

如何解决《以数组形式访问返回的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么AppDelegate.swift窗口是可选的？

如何解决《为什么AppDelegate.swift窗口是可选的？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Webpack错误 - 无法解析文件或目录

如何解决《Webpack错误-无法解析文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
指定的LocalDB实例不存在

如何解决《指定的LocalDB实例不存在》经验，为你挑选了0个好方法。 ... [详细]
程序员
Q_OBJECT和moc进行继承

如何解决《Q_OBJECT和moc进行继承》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在目录中的所有文件中搜索字符串？我出现了内存异常

如何解决《如何在目录中的所有文件中搜索字符串？我出现了内存异常》经验，为你挑选了1个好方法。 ... [详细]

wurtjq

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

python 爬虫 批量获取代理ip的实例代码

python 爬虫批量获取代理ip的实例代码