码迷,mamicode.com
首页 > Web开发 > 详细

Selenium保存网页为mhtml方法

时间:2020-03-30 19:29:46      阅读:514      评论:0      收藏:0      [点我收藏+]

标签:pytho   开发   port   内容   一个   ref   alt   driver   github   

MHTML即MIME HTML,归档网页,将样式和脚本全部集成到一个文件中。
Chrome Devtools Protcal API中包含了Page.captureSnapshot方法,可以获取到网页的mhtml格式内容。
我们使用Selenium的driver.execute_cdp_cmd()执行该命令后,将结果写入文件即可,示例代码如下。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get(‘https://www.qq.com/‘)

# 1. 执行 Chome 开发工具命令,得到mhtml内容
res = driver.execute_cdp_cmd(‘Page.captureSnapshot‘, {})

# 2. 写入文件
with open(‘qq.mhtml‘, ‘w‘) as f:
    f.write(res[‘data‘])

driver.quit()

保存结果,如下图,可以使用浏览器打开。
技术图片

更多的cdp方法可以参考 (chrome-devtools-protocol)[https://chromedevtools.github.io/devtools-protocol/]

Selenium保存网页为mhtml方法

标签:pytho   开发   port   内容   一个   ref   alt   driver   github   

原文地址:https://www.cnblogs.com/superhin/p/12600358.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!