一、Selenium下载文件并另存为
在使用Selenium进行文件下载之前,需要先设置浏览器的下载目录。这可以通过设置ChromeOptions来实现,具体代码如下:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument("--disable-extensions") chrome_options.add_argument("--disable-popup-blocking") chrome_options.add_argument("--profile-directory=Default") chrome_options.add_argument("--disable-plugins-discovery") chrome_options.add_argument("--start-maximized") chrome_options.add_experimental_option("prefs", { "download.default_directory": "D:\\downloads", "download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True }) driver = webdriver.Chrome(chrome_options=chrome_options)
其中,download.default_directory是设置下载文件的目录,download.prompt_for_download表示不弹出下载提示框,download.directory_upgrade表示如果文件已经下载过,则直接覆盖原文件。使用这些设置之后,就可以通过Selenium直接下载文件并保存到指定的目录了,代码如下:
url = "http://xxxx/xxxx.pdf" driver.get(url)
二、Selenium下载文件路径
在有些情况下,我们需要获取下载文件的路径,以用于后续操作。Selenium可以通过Chrome DevTools协议来实现这一功能,具体过程如下:
import json import os import time from selenium import webdriver from selenium.webdriver import ChromeOptions chrome_options = ChromeOptions() chrome_options.add_argument('--disable-dev-shm-usage') chrome_options.add_argument("--remote-debugging-port=9222")#启动一个本地调试实例 browser = webdriver.Chrome(chrome_options=chrome_options) browser.get('http://example.com/test.pdf') time.sleep(5) response = browser.execute_cdp_cmd("Page.printToPDF", {}) pdf_data = response['data'] browser.quit() path = os.path.expanduser('~/Downloads/example.pdf') with open(path, 'wb') as f: f.write(pdf_data)
三、Selenium下载文件0k
在进行Selenium文件下载时,可能会遇到文件下载成功但是文件大小为0K的情况。这种情况一般是因为文件还没有完全下载完毕就被打开了,或者是下载的不是完整的文件。可以通过修改ChromeOptions来解决这一问题,如下所示:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下载完全结束 while True: if os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break browser.quit()
四、Selenium下载文件进行断言
在进行Selenium文件下载时,需要对下载的文件进行断言,以确认下载的文件是否是预期的文件。可以通过读取文件的MD5值、文件名、文件大小等方式来进行断言,具体代码如下:
import hashlib import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) expected_md5 = "xxxxxxxxxxxxxxxxxxxxxx" expected_size = 123456 # 等待下载完全结束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): actual_size = os.path.getsize('/path/to/dir/xxxx.pdf') actual_md5 = hashlib.md5(open('/path/to/dir/xxxx.pdf', 'rb').read()).hexdigest() if actual_md5 == expected_md5 and actual_size == expected_size: print("下载文件成功,MD5值和文件大小匹配") else: print("下载文件失败,MD5值或文件大小不匹配") break browser.quit()
五、Selenium下载文件重命名
在进行Selenium文件下载时,可以对下载的文件进行重命名。这可以通过在ChromeOptions中添加args进行实现,具体代码如下:
from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": "/path/to/dir"} chrome_options.add_experimental_option("prefs", prefs) chrome_options.add_argument("--disable-extensions") chrome_options.add_argument("--disable-popup-blocking") chrome_options.add_argument("--start-maximized") chrome_options.add_argument("--disable-plugins-discovery") chrome_options.add_argument("--disable-blink-features=AutomationControlled") chrome_options.add_argument("--user-data-dir=/var/tmp/user-data") chrome_options.add_argument("--profile-directory=Profile 1") chrome_options.add_argument('--disable-web-security') chrome_options.add_argument('--allow-running-insecure-content') chrome_options.add_argument('--allow-cross-origin-auth-prompt') chrome_options.add_argument('--disable-site-isolation-trials') chrome_options.add_argument('--log-level=3') chrome_options.add_argument('--silent') prefs.update({ "download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True, }) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下载完全结束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): os.rename('/path/to/dir/xxxx.pdf', '/path/to/dir/xxxx_final.pdf') break browser.quit()
六、Selenium下载文件下载完成再运行
在Selenium进行文件下载时,可能会遇到下载完成后无法立即运行的问题。这是因为下载完成后文件仍在保存到磁盘中,此时文件并不是完整的。为了解决这个问题,我们可以使用time.sleep()方法来等待一段时间,然后再运行下载的文件,具体代码如下:
import os import time from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下载完全结束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break time.sleep(10) # 等待10秒钟,让文件下载完成 os.system("/usr/bin/open -a Preview /path/to/dir/xxxx.pdf") # mac下打开文件 browser.quit()
七、Selenium下载文件到不同文件夹
在Selenium进行文件下载时,可以将下载文件保存到不同的文件夹中,具体代码如下:
import os from selenium import webdriver download_dir = "/path/to/dir" if not os.path.exists(download_dir): os.makedirs(download_dir) chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": download_dir} chrome_options.add_experimental_option("prefs", prefs) browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下载完全结束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf') and os.path.getsize('/path/to/dir/xxxx.pdf') > 0: break browser.quit()
八、Selenium下载文件是crdownload
在Selenium进行文件下载时,有时候文件的下载状态会变为crdownload。这一般是因为文件还没有完全下载完成就被打开了,或者是下载的不是完整的文件。可以通过等待直到文件下载完成为止来解决这个问题,具体代码如下:
import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': '/path/to/dir'} chrome_options.add_experimental_option('prefs', prefs) chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') browser = webdriver.Chrome(chrome_options=chrome_options) url = "http://xxxx/xxxx.pdf" browser.get(url) # 等待下载完全结束 while True: if os.path.isfile('/path/to/dir/xxxx.pdf.crdownload'): time.sleep(5) # 等待5秒钟,让文件下载完成 else: break browser.quit()
九、Selenium下载文件弹出窗口选取
在某些情况下,Selenium需要弹出文件选择窗口才能下载文件。这可以通过执行JavaScript脚本来实现,代码如下:
import os from selenium import webdriver chrome_options = webdriver.ChromeOptions() prefs = {"download.default_directory": "/path/to/dir"} chrome_options.add_argument("--headless") chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') chrome_options.add_argument("--disable-web-security") chrome_options.add_argument("--allow-running-insecure-content") chrome_options.add_argument("--allow-cross-origin-auth-prompt") chrome_options.add_argument("--disable-site-isolation-trials") chrome_options.add_argument("--log-level=3") chrome_options.add_argument("--silent") prefs.update({"download.prompt_for_download": False, "download.directory_upgrade": True, "safebrowsing.enabled": True}) chrome_options.add_experimental_option("prefs", prefs) browser = webdriver.Chrome(chrome_options=chrome_options) browser.get("http://xxxx/xxxx.html") element = browser.find_element_by_css_selector("#download") element.click() # 等待弹出文件选择窗口 while len(browser.window_handles) == 1: time.sleep(0.1) # 切换窗口,选择文件并下载 browser.switch_to.window(browser.window_handles[-1]) browser.execute_script("document.querySelector('#folder').value = '/path/to/dir';") browser.execute_script("document.querySelector('#filename').value = 'xxxx.pdf';") browser.execute_script("document.querySelector('#save').click();") # 等待下载完成 while True: if os.path.isfile('/path/to/dir/xxxx.pdf'): break browser.quit()
以上就是关于Selenium文件下载的详细介绍,希望对大家有所帮助。