一、Selenium基础介绍及安装 1、Selenium简介 Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 2、安装Selenium pip install Seleniu ...
分类:
编程语言 时间:
2019-10-06 17:08:42
阅读次数:
146
Python3。主要使用到了csv、sys、urllib.request和BeautifulSoup4模块,其中csv模块是为了对csv文件的处理,urllib.request可以构造http请求,BeautifulSoup4可以解析页面信息。在使用这些模块之前,如果不存在需要进行安装,可打开cmd... ...
分类:
编程语言 时间:
2019-10-06 16:58:11
阅读次数:
106
前言 在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载。虽然小图能够在一些移动端可能展示的还行,但是放到pc端展示图片太小效果真的是很一般!建议阅读本文查看上一篇文章,在具体实现不做太多介绍,只讲个分析思路。 ...
分类:
编程语言 时间:
2019-10-05 14:48:35
阅读次数:
130
介绍 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: 使用方法 项目演示 select选择器选择a标签中的文本内容和gref属性 效果 ...
分类:
其他好文 时间:
2019-10-05 14:13:33
阅读次数:
105
所谓爬虫就是模拟客户端发送网络请求,获取网络响应,并按照一定的规则解析获取的数据并保存的程序。要说 Python 的爬虫必然绕不过 Requests 库。 1 简介 对于 Requests 库,官方文档是这么说的: Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用 ...
分类:
编程语言 时间:
2019-10-05 10:32:21
阅读次数:
86
1, 因为是post型,所以需要抓取数据包 2, 测试结果为数字型注入 提交恒等的语句可以查询到所有的数据信息 3, 使用UNION联合查询法 判断字段数,测试为2个字段时没有报错,所以可以判断字段数为2 4, 爆字段 #发现两个都可以查询 5, 查询数据库 #可以查到数据库名称为 pikachu ...
分类:
其他好文 时间:
2019-10-04 23:21:18
阅读次数:
177
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包 之后我们定义一个名叫BaiduSpider类用来爬取信息 属性有 url:用来爬取的网址 headers:请求头 之后我们定义三个方法 不涉及清洗数据 获取页面 保存数据 主函数 ...
分类:
编程语言 时间:
2019-10-03 21:55:36
阅读次数:
98
有些网站做了反爬技术,如:比较初级的通过判断请求头部中的user-agent字段来检测是否通过浏览器访问的。 在爬这类网站时需要模拟user-agent user-agent.txt 百度网盘 链接:https://pan.baidu.com/s/1ramkIyjVSI2_GXbxypj1Dg 提取 ...
分类:
编程语言 时间:
2019-10-02 22:52:50
阅读次数:
207
最近学习python3爬虫,看的是这位博主的博客,不得不说,是真的厉害,通俗易懂^?_?^我要学习的还有很多…从基本的python知识,我就被难倒了…哎,记录下我的盲点…花了近一个钟头测试出来的结果。在爬取相关的html时,text ≠ text[0]后者是正确的。我一直以为不加的效果也是一样的结果... ...
分类:
编程语言 时间:
2019-10-02 20:53:32
阅读次数:
106
Python3实用编程技巧进阶 1.如何实现可迭代对象和迭代器对象 如果想从网络上抓取数据存入字典,然后再对字典进行迭代显示,由于网络I/O操作的时间相对较长,这样就会造成用户的长时间等待,我们希望能一次抓取就显示一次,于是迭代器对象出现了。在 for 循环的时候 in 后面跟的是一个可迭代对象,在 ...
分类:
编程语言 时间:
2019-09-30 21:44:50
阅读次数:
96