今天准备进行北京市政府信件列表界面信息的爬取,通过老师给的教程发现界面的跳转网址不会发生改变,原来的思路不可用,查询资料可以使用geckodeiver来驱动网页的自动跳转。参考博文:https://www.cnblogs.com/nuomin/p/8486963.html。 其次学习了爬取中需要用到 ...
分类:
编程语言 时间:
2020-02-02 01:46:27
阅读次数:
108
今天主要完成了pyqt库及相应工具的安装,以及简单的实现了界面功能。 开发工具IDE选择pycharm,因为之前就进行过python爬虫学习,所以IDE早就以及安装配置好了。 还有一点需要提的就是pyqt提供一个可视化工具叫QTDesigner,就像我们之前做过的C#一样,直接拖动控件完成界面布局就 ...
分类:
其他好文 时间:
2020-02-01 20:57:05
阅读次数:
77
一、什么叫数据加密 数据加密是指利用加密算法和秘钥将明文转变为密文的过程。 二、数据加密的方式 1、单向加密 指只能加密数据而不能解密数据,这种加密方式主要是为了保证数据的完整性,常见的加密算法有MD5、sha系列等(位于python内置的hashlib模块中)。 2、对称加密 指数据加密和解密使用 ...
分类:
编程语言 时间:
2020-01-31 22:53:31
阅读次数:
190
(一)使用Beautiful Soup库 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: import requests; from _socket import timeout from bs4 import BeautifulSoup ...
分类:
编程语言 时间:
2020-01-31 00:49:17
阅读次数:
85
python爬虫抓取庆余年小说,并使用wordcloud胡乱分析 ...
分类:
编程语言 时间:
2020-01-30 23:12:32
阅读次数:
136
上图请求头内容,内容多不说,也不确认哪些数据是必须的,网上找到一个懒办法 快速一键生成 Python 爬虫请求头 实战演练 抓取网站:https://developer.mozilla.org... 网站在线转换 1,Chrome 打开开发者选项( f12 ) > network 选项卡 > 刷新页 ...
分类:
其他好文 时间:
2020-01-30 17:20:21
阅读次数:
341
# 本程序为学习代码,成功爬取了'梨视频'网站的全部视频文件,并保存在video文件夹 import os import re import requests def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r. ...
分类:
编程语言 时间:
2020-01-29 16:27:45
阅读次数:
434
# 本程序为爬虫学习代码,成功爬取了漫微网站上的全部图片内容 import re import os import requests def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.ap ...
分类:
编程语言 时间:
2020-01-29 16:22:10
阅读次数:
107
"java从心"正式更名"KEN DO EVERTHING"。Ken(Can) Do Everything,无所不能 Believe youseft then you can do everthing ! 我也是刚踏入python的大门,所以只能给点小建议,而不是指导(暂时只接触了python爬虫) ...
分类:
编程语言 时间:
2020-01-28 21:17:37
阅读次数:
76
Url管理器: 用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取,url管理器的五个最小功能: 1、添加url到容器中 2、获取一个url 3、判断url是否已在容器中 4、判断是否还有待爬取的url 5、将待爬取的url移到已爬取的url 网页下载器: 网页下载器是爬虫的核心组件,它 ...
分类:
编程语言 时间:
2020-01-28 12:24:55
阅读次数:
55