Selenium下载文件

一、Selenium下载文件并另存为

在使用Selenium进行文件下载之前，需要先设置浏览器的下载目录。这可以通过设置ChromeOptions来实现，具体代码如下：

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--profile-directory=Default")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--start-maximized")
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": "D:\\downloads",
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True
})

driver = webdriver.Chrome(chrome_options=chrome_options)

其中，download.default_directory是设置下载文件的目录，download.prompt_for_download表示不弹出下载提示框，download.directory_upgrade表示如果文件已经下载过，则直接覆盖原文件。使用这些设置之后，就可以通过Selenium直接下载文件并保存到指定的目录了，代码如下：

url = "http://xxxx/xxxx.pdf"
driver.get(url)

二、Selenium下载文件路径

在有些情况下，我们需要获取下载文件的路径，以用于后续操作。Selenium可以通过Chrome DevTools协议来实现这一功能，具体过程如下：

import json
import os
import time

from selenium import webdriver
from selenium.webdriver import ChromeOptions

chrome_options = ChromeOptions()
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument("--remote-debugging-port=9222")#启动一个本地调试实例
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://example.com/test.pdf')
time.sleep(5)
response = browser.execute_cdp_cmd("Page.printToPDF", {})
pdf_data = response['data']
browser.quit()

path = os.path.expanduser('~/Downloads/example.pdf')
with open(path, 'wb') as f:
    f.write(pdf_data)

三、Selenium下载文件0k

在进行Selenium文件下载时，可能会遇到文件下载成功但是文件大小为0K的情况。这种情况一般是因为文件还没有完全下载完毕就被打开了，或者是下载的不是完整的文件。可以通过修改ChromeOptions来解决这一问题，如下所示：

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)
# 等待下载完全结束
while True:
    if os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break
browser.quit()

四、Selenium下载文件进行断言

在进行Selenium文件下载时，需要对下载的文件进行断言，以确认下载的文件是否是预期的文件。可以通过读取文件的MD5值、文件名、文件大小等方式来进行断言，具体代码如下：

import hashlib
import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx"
expected_size = 123456

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        actual_size = os.path.getsize('/path/to/dir/xxxx.pdf')
        actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest()

        if actual_md5 == expected_md5 and actual_size == expected_size:
            print("下载文件成功，MD5值和文件大小匹配")
        else:
            print("下载文件失败，MD5值或文件大小不匹配")
        break

browser.quit()

五、Selenium下载文件重命名

在进行Selenium文件下载时，可以对下载的文件进行重命名。这可以通过在ChromeOptions中添加args进行实现，具体代码如下：

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_experimental_option("prefs", prefs)
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_argument("--user-data-dir=/var/tmp/user-data")
chrome_options.add_argument("--profile-directory=Profile 1")
chrome_options.add_argument('--disable-web-security')
chrome_options.add_argument('--allow-running-insecure-content')
chrome_options.add_argument('--allow-cross-origin-auth-prompt')
chrome_options.add_argument('--disable-site-isolation-trials')
chrome_options.add_argument('--log-level=3')
chrome_options.add_argument('--silent')
prefs.update({
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True,
})

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf')
        break

browser.quit()

六、Selenium下载文件下载完成再运行

在Selenium进行文件下载时，可能会遇到下载完成后无法立即运行的问题。这是因为下载完成后文件仍在保存到磁盘中，此时文件并不是完整的。为了解决这个问题，我们可以使用time.sleep()方法来等待一段时间，然后再运行下载的文件，具体代码如下：

import os
import time

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

time.sleep(10) # 等待10秒钟，让文件下载完成
os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打开文件
browser.quit()

七、Selenium下载文件到不同文件夹

在Selenium进行文件下载时，可以将下载文件保存到不同的文件夹中，具体代码如下：

import os

from selenium import webdriver

download_dir = "/path/to/dir"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": download_dir}
chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

browser.quit()

八、Selenium下载文件是crdownload

在Selenium进行文件下载时，有时候文件的下载状态会变为crdownload。这一般是因为文件还没有完全下载完成就被打开了，或者是下载的不是完整的文件。可以通过等待直到文件下载完成为止来解决这个问题，具体代码如下：

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'):
        time.sleep(5) # 等待5秒钟，让文件下载完成
    else:
        break

browser.quit()

九、Selenium下载文件弹出窗口选取

在某些情况下，Selenium需要弹出文件选择窗口才能下载文件。这可以通过执行JavaScript脚本来实现，代码如下：

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-web-security")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_options.add_argument("--allow-cross-origin-auth-prompt")
chrome_options.add_argument("--disable-site-isolation-trials")
chrome_options.add_argument("--log-level=3")
chrome_options.add_argument("--silent")
prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True})
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get("http://xxxx/xxxx.html")
element = browser.find_element_by_css_selector("#download")
element.click()

# 等待弹出文件选择窗口
while len(browser.window_handles) == 1:
    time.sleep(0.1)

# 切换窗口，选择文件并下载
browser.switch_to.window(browser.window_handles[-1])
browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';")
browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';")
browser.execute_script("document.querySelector('#save').click();")

# 等待下载完成
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        break

browser.quit()

以上就是关于Selenium文件下载的详细介绍，希望对大家有所帮助。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Selenium下载文件

一、Selenium下载文件并另存为

二、Selenium下载文件路径

三、Selenium下载文件0k

四、Selenium下载文件进行断言

五、Selenium下载文件重命名

六、Selenium下载文件下载完成再运行

七、Selenium下载文件到不同文件夹

八、Selenium下载文件是crdownload

九、Selenium下载文件弹出窗口选取

Selenium下载文件

java方法整理笔记（java总结）

Selenium上传文件的方法和技巧

java学习笔记（java初学笔记）

印象笔记记录java学习（Java成长笔记）

显示等待和隐式等待的区别

pip selenium的详细阐述

java笔记,大学java笔记

发篇java复习笔记（java课程笔记）

Selenium 4.0教程

java笔记,尚硅谷java笔记

Selenium原理详解

使用Selenium等待元素出现无法正常运行的解决方法

python基础学习整理笔记,Python课堂笔记

为知笔记私有化部署

Mac笔记：在日常生活中高效实用的笔记工具

java客户端学习笔记（java开发笔记）

Pycharm Selenium详解

文库下载python（文库下载器app）

php笔记程序官方下载,php笔记程序官方下载网站

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Selenium下载文件

一、Selenium下载文件并另存为

二、Selenium下载文件路径

三、Selenium下载文件0k

四、Selenium下载文件进行断言

五、Selenium下载文件重命名

六、Selenium下载文件下载完成再运行

七、Selenium下载文件到不同文件夹

八、Selenium下载文件是crdownload

九、Selenium下载文件弹出窗口选取

Selenium下载文件

java方法整理笔记（java总结）

Selenium上传文件的方法和技巧

java学习笔记（java初学笔记）

印象笔记记录java学习（Java成长笔记）

显示等待和隐式等待的区别

pip selenium的详细阐述

java笔记,大学java笔记

发篇java复习笔记（java课程笔记）

Selenium 4.0教程

java笔记,尚硅谷java笔记

Selenium原理详解

使用Selenium等待元素出现无法正常运行的解决方法

python基础学习整理笔记,Python课堂笔记

为知笔记私有化部署

Mac笔记：在日常生活中高效实用的笔记工具

java客户端学习笔记（java开发笔记）

Pycharm Selenium详解

文库下载python（文库下载器app）

php笔记程序官方下载,php笔记程序官方下载网站

人机检测，请谅解