最近需要从某个网页上抓取数据。一波三折。 1. 先要找到网站页面调用后台数据服务的url地址,但是本人对js不了解,花了不少时间在分析其网页源代码的js部分,试图寻找出调用数据的链接。 后来得知浏览器都会追踪页面发出去的所有链接,chrome中,“F12->网络” 会显示所有的调用链接。读取后端数据 ...
分类:
编程语言 时间:
2016-06-30 19:39:11
阅读次数:
343
curl常用的几个例子 1、抓取无访问控制文件 2、使用代理进行抓取 3、post数据后,抓取数据 4、抓取一些有页面访问控制的页面 5、模拟登录 6、文件上传 7、文件流上传 ...
分类:
Web程序 时间:
2016-06-23 00:47:14
阅读次数:
205
最近做爬虫相关工作,我们平时用HttpWebRequest 比较多,每一个Url都要创建一个HttpWebRequest实例, 而且有些网站验证比较复杂,在登陆及后续抓取数据的时候,每次请求需要把上次的Cookie传递给这次请求。 记得这篇博客(http://www.cnblogs.com/dudu ...
分类:
Web程序 时间:
2016-05-30 09:55:45
阅读次数:
149
Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得。 1.安装 1 sudo pip install scrapy 2.创建爬虫项目 1 scrapy startproject youProjectName 3.抓取数据 1 ...
分类:
其他好文 时间:
2016-05-25 18:49:49
阅读次数:
407
scrapy-redis使用的爬虫策略: Slaver端从Master端拿任务进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时,会在redis中创建两个key,一个是(sp ...
分类:
其他好文 时间:
2016-05-19 16:27:49
阅读次数:
362
很多学习Python编程语言的朋友都会学习Python网络爬虫技术,也有专门学习网络爬虫技术的,那么如何学习Python爬虫技术呢,今天就给大家讲讲使用Python抓取数据时非常受欢迎的Python抓取框架scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。
分类:
编程语言 时间:
2016-05-18 15:02:51
阅读次数:
418
页面如下: reactjs 数据接入,直接定义数据(json),如下: reactjs 数据接入,从服务器抓取数据(json),如下: ...
分类:
Web程序 时间:
2016-05-16 10:41:41
阅读次数:
272
MySql避免重复插入记录
发布于: December 15, 2011, 6:02 pm 分类: MySQL 作者: Cyrec 阅读:
[308]
今天用python抓取数据入库需要避免重复数据插入,在网上找了一些方法:
方案一:使用ignore关键字
如果是用主键primary或者唯一索引unique区分了记录的唯一性,避免重复插入记录可以使用:
insert igno...
分类:
数据库 时间:
2016-05-12 22:02:49
阅读次数:
168
0x00 抓取数据包 打开浏览器,使用fiddler抓取http数据包 每种图标代表不同的相应类型,具体的类型包括: 0x01 开始分析 1. Statistic。 关于HTTP请求的性能和其他数据分析: 我们可以从中看出一些基本性能数据:如DNS解析的时间消耗是8ms,建立TCP/IP连接的时间消... ...
分类:
其他好文 时间:
2016-05-09 12:34:14
阅读次数:
283
在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的目录之中。那么,这些目录的结构的什么样的?每个目录里面又保存了哪些内容呢?本篇博文将为你揭晓。...
分类:
其他好文 时间:
2016-04-29 19:19:52
阅读次数:
154