python使用selenium实现批量文件下载

作者：360691894_8a5c48 | 2021-10-27 06:01

这篇文章主要介绍了python使用selenium实现批量文件下载，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

背景

实现需求：批量下载联想某型号的全部驱动程序。

一般在做网络爬虫的时候，都是保存网页信息为主，或者下载单个文件。当涉及到多文件批量下载的时候，由于下载所需时间不定，下载的文件名不定，所以有一定的困难。

思路

参数配置

在涉及下载的时候，需要先对chromedriver进行参数配置，设定默认下载目录：

global base_path
profile = {
 'download.default_directory': base_path
}
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('prefs', profile)
driver = webdriver.Chrome(executable_path='../common/chromedriver', options=chrome_options)
driver.implicitly_wait(10)

页面分析

联想官网上每个型号的驱动下载页面如上图所示，虽然前面有一个登陆的遮罩，但是实际上并不影响点击。需要注意的是：

驱动列表，需要点击才可以显示具体的下载项目表格，否则可以找到对应元素但无法获取正确的信息

driver_list.find_element_by_class_name('download-center_list_t_icon').click()

每个下载列表的表头建议做跳过处理

if sub_list.find_element_by_class_name('download-center_usblist_td01').text == '驱动名称':
 continue

下载处理

在页面中，找到“普通下载”的元素，点击即可下载。最终实现结果是我们希望根据网页的列表进行重命名和重新归档到文件夹，但是我们会发现如下几个问题：

下载过来的文件名无法控制。
依次下载的话，我们无法确认需要下载多久。并行下载的话，无法有效的区分重命名。

在网上找了很久，也没找到在下载时直接重命名的方法，所以最终选择依次下载，当每次下载完成后进行重命名和归档，思路如下：

对每个驱动目录，先新建一个文件夹，如：主板
点击下载后开始下载文件
通过os模块，找到下载目录中所有文件，并按创建时间排序，找到最新创建的文件
由于未完成的文件后缀为.crdownload（chrome），那么根据后缀来判断是否已完成下载，未完成的话继续等待

待下载完成，将文件重命名并剪切到开始建立的归档目录。这里需要注意的是，有些文件名中不能存在/符号，否则会导致重命名失败，需要做一下替换。

在后期测试的时候，发现还有几个坑需要注意：

在查找最新创建的文件时，需要注意.DS_Store文件的处理。（Mac系统，Windows则需要考虑thumbs.db）

需要判断一下最新创建的文件是否为文件夹，可以通过filter函数来处理

最新文件的排序查找实现如下：

def sort_file():
 # 排序文件
 dir_link = base_path
 dir_lists = list(filter(check_file, os.listdir(dir_link)))
 if len(dir_lists) == 0:
  return ''
 else:
  dir_lists.sort(key=lambda fn: os.path.getmtime(dir_link + os.sep + fn))
  return os.path.join(base_path, dir_lists[-1])


def check_file(filename):
 # 忽略系统文件
 if filename == '.DS_Store' or filename == 'thumbs.db':
  return False
 global base_path
 # 排除文件夹
 return os.path.isfile(os.path.join(base_path, filename))

总结

最终实现效果如下：

完整代码

import os
import time
import re
from selenium import webdriver
'''
想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！
'''
 
def sort_file():
  # 排序文件
  dir_link = base_path
  dir_lists = list(filter(check_file, os.listdir(dir_link)))
  if len(dir_lists) == 0:
    return ''
  else:
    dir_lists.sort(key=lambda fn: os.path.getmtime(dir_link + os.sep + fn))
    return os.path.join(base_path, dir_lists[-1])
 
 
def check_file(filename):
  # 忽略系统文件
  if filename == '.DS_Store' or filename == 'thumbs.db':
    return False
  global base_path
  # 排除文件夹
  return os.path.isfile(os.path.join(base_path, filename))
 
 
def download_drivers(url):
  global base_path
  profile = {
    'download.default_directory': base_path
    }
  chrome_options = webdriver.ChromeOptions()
  chrome_options.add_experimental_option('prefs', profile)
  driver = webdriver.Chrome(executable_path='../common/chromedriver', options=chrome_options)
  driver.implicitly_wait(10)
  driver.get(url)
  driver_lists = driver.find_elements_by_class_name('dlist-item')
  for driver_list in driver_lists:
    # 提取中文及英文字母
    title = ''.join(re.findall(r'[\u4e00-\u9fa5a-zA-Z]+', driver_list.text))
    temp_path = './drivers/' + title
    if not os.path.exists(temp_path):
      os.mkdir(temp_path)
    driver_list.find_element_by_class_name('download-center_list_t_icon').click()
    sub_lists = driver_list.find_elements_by_tag_name('tr')
    for sub_list in sub_lists:
      try:
        if sub_list.find_element_by_class_name('download-center_usblist_td01').text == '驱动名称':
          continue
        else:
          sub_title = sub_list.find_element_by_class_name('download-center_usblist_td01').\
            find_element_by_tag_name('a').get_attribute('title').replace('/', '_')
          print('开始下载:' + sub_title)
          sub_list.find_element_by_link_text('普通下载').click()
          # 等待开始下载
          time.sleep(2)
          while True:
            oldname = sort_file()
            file_type = oldname.split('.')[-1]
            if oldname != '' and file_type != 'crdownload':
              print('下载已完成')
              break
            else:
              print("等待下载。。。")
              time.sleep(10)
          newnamne = temp_path + os.sep + sub_title + '.' + file_type
          os.rename(oldname, newnamne)
          print('归档成功')
      except Exception as e:
        print(e)
        continue
  print('下载结束')
  driver.quit()
 
 
if __name__ == '__main__':
  base_path = './drivers'
  if not os.path.exists(base_path):
    os.mkdir(base_path)
    print('创建drivers文件夹')
  # T470s win10 64bit
  url = "https://think.lenovo.com.cn/support/driver/newdriversdownlist.aspx?categoryid=12832&CODEName=ThinkPad%20T470s&SearchType=1&wherePage=1&SearchNodeCC=ThinkPad%20T470s"
  # T470s win7 64bit
  #url = 'https://think.lenovo.com.cn/support/driver/newdriversdownlist.aspx?categoryid=12832&CODEName=ThinkPad%20T470s&SearchType=1&wherePage=1&SearchNodeCC=ThinkPad%20T470s&osid=26'
  # T460s win10 64bit
  # url = 'https://think.lenovo.com.cn/support/driver/newdriversdownlist.aspx?yt=pt&categoryid=12358&CODEName=ThinkPad%20T460s&SearchType=0&wherePage=2&osid=42'
  # T460s win7 64bit
  # url = 'https://think.lenovo.com.cn/support/driver/newdriversdownlist.aspx?yt=pt&categoryid=12358&CODEName=ThinkPad%20T460s&SearchType=0&wherePage=2&osid=26'
  # T450s win10 64bit
  # url = 'https://think.lenovo.com.cn/support/driver/newdriversdownlist.aspx?yt=pt&categoryid=12002&CODEName=ThinkPad%20T450s&SearchType=0&wherePage=2&osid=42'
  download_drivers(url)

完整代码参考：https://github.com/keejo125/web_scraping_and_data_analysis/tree/master/Lenovo

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

程序员
jQuery wrap new元素不起作用

如何解决《jQuerywrapnew元素不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
artifact:mvn ant任务因maven 3.3.x而失败

如何解决《artifact:mvnant任务因maven3.3.x而失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
将2个集合转换为Map

如何解决《将2个集合转换为Map》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google Places API Framework文件夹iOS中缺少某些类

如何解决《GooglePlacesAPIFramework文件夹iOS中缺少某些类》经验，为你挑选了0个好方法。 ... [详细]
程序员
WHERE语句在使用It.IsAny的单元测试中不起作用

如何解决《WHERE语句在使用It.IsAny的单元测试中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以快捷方式检查变量是否为"nil"并替换为默认值？

如何解决《我可以快捷方式检查变量是否为"nil"并替换为默认值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery:分离还是不分离？

如何解决《jQuery:分离还是不分离？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用THREE.DecalGeometry为贴花设置正确的方向

如何解决《如何使用THREE.DecalGeometry为贴花设置正确的方向》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以在流链中访问先前lambda的值吗？

如何解决《我可以在流链中访问先前lambda的值吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery选择了滚动问题,包含所选内容的元素不滚动

如何解决《jQuery选择了滚动问题,包含所选内容的元素不滚动》经验，为你挑选了1个好方法。 ... [详细]
程序员
弹簧启动时MultipartFile的最大限制

如何解决《弹簧启动时MultipartFile的最大限制》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在gcloud中省略用户交互

如何解决《如何在gcloud中省略用户交互》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用mysql中的alter table将date转换为datetime或timestamp

如何解决《使用mysql中的altertable将date转换为datetime或timestamp》经验，为你挑选了1个好方法。 ... [详细]
程序员
WordPress - 允许对作者页面发表评论

如何解决《WordPress-允许对作者页面发表评论》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Dev环境中提高Webpack性能？

如何解决《如何在Dev环境中提高Webpack性能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
psycopg2选择timestamp返回包含在元组中的datetime.datetime,如何解压缩？

如何解决《psycopg2选择timestamp返回包含在元组中的datetime.datetime,如何解压缩？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么不可能/不太可能显示性能改进？

如何解决《为什么不可能/不太可能显示性能改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
连接列表列表

如何解决《连接列表列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
读取不同语言环境中的时间戳

如何解决《读取不同语言环境中的时间戳》经验，为你挑选了0个好方法。 ... [详细]
程序员
我们可以在SQL Transaction中多次使用'GO'吗？

如何解决《我们可以在SQLTransaction中多次使用'GO'吗？》经验，为你挑选了1个好方法。 ... [详细]

360691894_8a5c48

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章