网页访问常用到库: requests(网页请求) BeautifulSoup(从网页抓取数据) selenium(模拟浏览器行为) PhantomJS(虚拟浏览器) 定时爬取数据: 断线重连解决方法: 引入新函数reloading() ...
分类:
编程语言 时间:
2017-01-01 07:39:53
阅读次数:
204
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 ...
分类:
编程语言 时间:
2016-12-30 16:34:33
阅读次数:
153
在工作中碰到一个需求:点击浏览器的后退按钮时,需要判断当前页面的表单数据是否已保存;如果没保存,就给出提示。但浏览器并没有后退事件,这个项目也没有用什么 MV** 之类的框架或库,用的是 jQuery,于是只能尝试模拟浏览器后退事件。 用的是 H5 中的 pushState 与 popstate,代 ...
分类:
其他好文 时间:
2016-12-29 16:51:23
阅读次数:
231
一、首次爬取模拟浏览器 在爬虫文件中,添加start_request函数。如: def start_requests(self): ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, ...
分类:
编程语言 时间:
2016-12-24 02:04:12
阅读次数:
260
一、基础知识 1、HTML分析 2、urllib爬取 3、urllib保存网页 4、urllib保存图片 5、模拟浏览器 6、正则表达式 7、IP代理 8、抓包分析 9、多线程爬取 10、异常处理 11、XPath 二、Scrapy安装关联包 PyCharm 》File 》Settings 》Pro ...
分类:
编程语言 时间:
2016-12-11 01:59:15
阅读次数:
239
/** * 测试新增图片 * @throws IOException * @throws HttpException * @throws SAXException * @throws ParserConfigurationException */ // @Test// public void Tes ...
分类:
Web程序 时间:
2016-11-11 14:47:46
阅读次数:
896
前言
之前在 python爬虫(上)–请求——关于模拟浏览器方法,中我挖了一个坑,时隔一个多月,趁着最近有点空,我想是时候填填坑了,总结总结了,不然真的就忘了
验证码
虽然之前挖坑的那篇已经说了...
分类:
编程语言 时间:
2016-11-02 12:14:23
阅读次数:
1624
在做一些天气预报或者RSS订阅的程序时,往往 需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来。 下面简单说一下php抓取 ...
分类:
Web程序 时间:
2016-10-22 12:23:38
阅读次数:
232
本篇从实际出发,展示如何用网页爬虫。并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序。正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:)。通常适用于需要大量网页信息的场合。 爬取网页的流程为:访问初始url -> 获得返 ...
分类:
Web程序 时间:
2016-10-14 23:16:48
阅读次数:
189
模拟浏览器,发送http的消息给tomcat服务器,并获取服务器(Tomcat)反馈的信息 获取到的http的应答头消息: HTTP/1.1 200 OK //应答行 http协议版本,应答状态码,应答描述信息应答属性信息:Server: Apache-Coyote/1.1Accept-Ranges ...
分类:
其他好文 时间:
2016-10-05 21:58:06
阅读次数:
178