采用多线程对韩寒的微博进行爬取,这个只是不需要进行模拟登陆的: ...
分类:
编程语言 时间:
2016-09-03 21:05:26
阅读次数:
184
1.在模拟登陆的过程中第一步需要得到登陆前信息,用户名和密码通过js预先加密,所以必须要先将js预先加密的servertime和nonce和pubkey得到,下面json模块和re得到预先加密的信息 1 # coding:utf-8 2 import urllib2 3 import re 4 im ...
分类:
其他好文 时间:
2016-09-03 21:02:25
阅读次数:
680
Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有: 比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。 方法: fetch($url) 该方法用于抓取网页内容,类似于file_get_co ...
分类:
其他好文 时间:
2016-08-31 09:25:54
阅读次数:
262
Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有: 比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用。 方法: fetch($url) 该方法用于抓取网页内容,类似于file_get_co ...
分类:
其他好文 时间:
2016-08-31 09:25:54
阅读次数:
130
目录分析要获取的数据
程序的结构
构建封装数据的model
模拟登陆程序并解析数据
结果展示分析要获取的数据下面继续实战,写一个模拟登陆获取汽车之家,用户信息的程序。如果大家对模拟登陆获取数据不太了解...
分类:
其他好文 时间:
2016-08-25 21:50:56
阅读次数:
504
作者:金良(golden1314521@gmail.com) csdn博客:http://blog.csdn.net/u0121765911.查看正常情况下登录博客园时本地浏览器向博客园的服务器发送的...
分类:
其他好文 时间:
2016-08-25 21:42:12
阅读次数:
253
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params。 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url,python对应time.time(),生成验证码图片url,图片下载在本地,手动输入。代码如下: 2. ...
分类:
编程语言 时间:
2016-08-20 21:43:01
阅读次数:
290
关于豆瓣,还是算是爬虫友好型的网站,之前模拟登陆也很容易就成功了,不过最近要在豆瓣抓点东西,发现代码已经不能用了。打印源码发现,需要验证码了。 所以,这里写个续集。。。较上一篇改动主要在验证码和一个随机字符串的获取,再之后加入pyload就行了。具体参照代码。 大概就这样,今天先写到这了,天快明了。 ...
分类:
其他好文 时间:
2016-08-17 06:42:07
阅读次数:
204
项目主管说这是项目中的一个亮点(无语...), 类似于爬虫一类的东西,模拟登陆后台系统,获取需要的数据。然后就开始研究这个。 之前有一些数据抓取的经验,抓取流程无非:设置参数->服务端发送请求->解析结果 1、验证码识别 系统的验证码只包含数字,不复杂,所以没有深入研究。 http://www.cn ...
很多做社交媒体数据分析的同学需要采集一些新浪微博上的数据,新浪微博虽然有提供api,但免费的api对获取的数据项和获取的频率都有很大的限制,商业版api据说限制较少,但是作为屌丝学生党拿来那么多钱买买商业版的api?!!! 微博模拟登陆 直接写爬虫需先登录到新浪微博,否则爬虫一直返回登录页面不给数据 ...
分类:
编程语言 时间:
2016-07-29 22:55:42
阅读次数:
246