您的位置:

Selenium下载文件

一、Selenium下载文件并另存为

在使用Selenium进行文件下载之前,需要先设置浏览器的下载目录。这可以通过设置ChromeOptions来实现,具体代码如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--profile-directory=Default")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--start-maximized")
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": "D:\\downloads",
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True
})

driver = webdriver.Chrome(chrome_options=chrome_options)

其中,download.default_directory是设置下载文件的目录,download.prompt_for_download表示不弹出下载提示框,download.directory_upgrade表示如果文件已经下载过,则直接覆盖原文件。使用这些设置之后,就可以通过Selenium直接下载文件并保存到指定的目录了,代码如下:

url = "http://xxxx/xxxx.pdf"
driver.get(url)

二、Selenium下载文件路径

在有些情况下,我们需要获取下载文件的路径,以用于后续操作。Selenium可以通过Chrome DevTools协议来实现这一功能,具体过程如下:

import json
import os
import time

from selenium import webdriver
from selenium.webdriver import ChromeOptions

chrome_options = ChromeOptions()
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument("--remote-debugging-port=9222")#启动一个本地调试实例
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://example.com/test.pdf')
time.sleep(5)
response = browser.execute_cdp_cmd("Page.printToPDF", {})
pdf_data = response['data']
browser.quit()

path = os.path.expanduser('~/Downloads/example.pdf')
with open(path, 'wb') as f:
    f.write(pdf_data)

三、Selenium下载文件0k

在进行Selenium文件下载时,可能会遇到文件下载成功但是文件大小为0K的情况。这种情况一般是因为文件还没有完全下载完毕就被打开了,或者是下载的不是完整的文件。可以通过修改ChromeOptions来解决这一问题,如下所示:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)
# 等待下载完全结束
while True:
    if os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break
browser.quit()

四、Selenium下载文件进行断言

在进行Selenium文件下载时,需要对下载的文件进行断言,以确认下载的文件是否是预期的文件。可以通过读取文件的MD5值、文件名、文件大小等方式来进行断言,具体代码如下:

import hashlib
import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx"
expected_size = 123456

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        actual_size = os.path.getsize('/path/to/dir/xxxx.pdf')
        actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest()

        if actual_md5 == expected_md5 and actual_size == expected_size:
            print("下载文件成功,MD5值和文件大小匹配")
        else:
            print("下载文件失败,MD5值或文件大小不匹配")
        break

browser.quit()

五、Selenium下载文件重命名

在进行Selenium文件下载时,可以对下载的文件进行重命名。这可以通过在ChromeOptions中添加args进行实现,具体代码如下:

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_experimental_option("prefs", prefs)
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument("--disable-plugins-discovery")
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_argument("--user-data-dir=/var/tmp/user-data")
chrome_options.add_argument("--profile-directory=Profile 1")
chrome_options.add_argument('--disable-web-security')
chrome_options.add_argument('--allow-running-insecure-content')
chrome_options.add_argument('--allow-cross-origin-auth-prompt')
chrome_options.add_argument('--disable-site-isolation-trials')
chrome_options.add_argument('--log-level=3')
chrome_options.add_argument('--silent')
prefs.update({
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True,
})

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf')
        break

browser.quit()

六、Selenium下载文件下载完成再运行

在Selenium进行文件下载时,可能会遇到下载完成后无法立即运行的问题。这是因为下载完成后文件仍在保存到磁盘中,此时文件并不是完整的。为了解决这个问题,我们可以使用time.sleep()方法来等待一段时间,然后再运行下载的文件,具体代码如下:

import os
import time

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

time.sleep(10) # 等待10秒钟,让文件下载完成
os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打开文件
browser.quit()

七、Selenium下载文件到不同文件夹

在Selenium进行文件下载时,可以将下载文件保存到不同的文件夹中,具体代码如下:

import os

from selenium import webdriver

download_dir = "/path/to/dir"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": download_dir}
chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0:
        break

browser.quit()

八、Selenium下载文件是crdownload

在Selenium进行文件下载时,有时候文件的下载状态会变为crdownload。这一般是因为文件还没有完全下载完成就被打开了,或者是下载的不是完整的文件。可以通过等待直到文件下载完成为止来解决这个问题,具体代码如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'}
chrome_options.add_experimental_option('prefs', prefs)
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
browser = webdriver.Chrome(chrome_options=chrome_options)

url = "http://xxxx/xxxx.pdf"
browser.get(url)

# 等待下载完全结束
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'):
        time.sleep(5) # 等待5秒钟,让文件下载完成
    else:
        break

browser.quit()

九、Selenium下载文件弹出窗口选取

在某些情况下,Selenium需要弹出文件选择窗口才能下载文件。这可以通过执行JavaScript脚本来实现,代码如下:

import os

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"download.default_directory": "/path/to/dir"}
chrome_options.add_argument("--headless")
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-web-security")
chrome_options.add_argument("--allow-running-insecure-content")
chrome_options.add_argument("--allow-cross-origin-auth-prompt")
chrome_options.add_argument("--disable-site-isolation-trials")
chrome_options.add_argument("--log-level=3")
chrome_options.add_argument("--silent")
prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True})
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get("http://xxxx/xxxx.html")
element = browser.find_element_by_css_selector("#download")
element.click()

# 等待弹出文件选择窗口
while len(browser.window_handles) == 1:
    time.sleep(0.1)

# 切换窗口,选择文件并下载
browser.switch_to.window(browser.window_handles[-1])
browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';")
browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';")
browser.execute_script("document.querySelector('#save').click();")

# 等待下载完成
while True:
    if os.path.isfile('/path/to/dir/xxxx.pdf'):
        break

browser.quit()

以上就是关于Selenium文件下载的详细介绍,希望对大家有所帮助。