scrapy爬虫还是很简单的,主要是三部分:spider,item,pipeline 其中后面两个也是通用套路,需要详细解析的也就是spider。 具体如下: 在网上找了几个汽车网站,后来敲定,以易车网作为爬取站点 原因在于,其数据源实在是太方便了。 看这个页面,左边按照品牌排序,搜索子品牌,再挨个 ...
分类:
其他好文 时间:
2016-10-20 14:35:25
阅读次数:
251
Pipeline & PageProcesser 这两部分是应该程序员自己实现的部分,因为PageProcesser关乎如何解析页面而Pipeline则是存储,推荐使用OOSpider也就是注解式编程。 Downloader public interface Downloader { /** * D ...
分类:
其他好文 时间:
2016-10-19 07:38:58
阅读次数:
211
开始实验这个,是因为Redis实战.pdf上面有例子。 上面用的是 org.jredis包,可是发现这个包不在maven的公共仓库里。需要先下载然后放在本地,导入maven依赖。详见: http://blog.csdn.net/zhu_tianwei/article/details/44900955 ...
分类:
编程语言 时间:
2016-10-16 11:41:05
阅读次数:
195
错误: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try 原因: 无法写入;我的环境中 ...
分类:
编程语言 时间:
2016-10-09 06:49:10
阅读次数:
181
1.xpath和css的节点的共同结合使用是一个挺好的使用过程,还有就是配合正则表达式的使用,这个也是很重要的。解决任何一个问题都会有不同方法。学会思考的解决问题。 2.item的数据抽取,pipeline的数据处理,setting抓取时候的设置,spider中的爬虫的编写。 3.数据处理的学习,p ...
分类:
其他好文 时间:
2016-10-08 14:12:30
阅读次数:
134
有时,我们需要采用异步方式,一次发送多个指令,不同步等待其返回结果。 利用pipeline的方式从client打包多条命令一起发出,不需要等待单条命令的响应返回, 而redis服务端会处理完多条命令后会将多条命令的处理结果打包到一起返回给客户端(ps:有点类似存储过程的特点)。 这样可以取得非常好的 ...
分类:
其他好文 时间:
2016-10-02 21:36:51
阅读次数:
154
pipeline类似于工厂加工,开始给一堆的零件,通过各个管道之后,从最后出口出来之后就是一件成品。管道链类似的责任。的主要区别是,链,每个“链接”传递到下一个,直到人知道如何处理它,那么这个过程停止。在管道,传递给每一个链的链接和潜在的修改通过。这就是“管道和过滤器”发挥作用,因为一个链接可以过滤 ...
mongodb 中的aggretion 中,如果管道中存在一个与之相匹配的shard key ,那么这个管道只运行在与之相匹配的shard 中,在以前(3.2),pipeline 被分流,最后又由primary shard 合并; 在sharded collections 中,aggragation ...
分类:
数据库 时间:
2016-09-18 11:54:13
阅读次数:
153
ASP.NET对请求处理的过程: 当请求一个*.aspx文件的时候,这个请求会被inetinfo.exe进程截获,它判断文件的后缀(aspx)之后,将这个请求转交给ASPNET_ISAPI.dll,ASPNET_ISAPI.dll会通过http管道(Http PipeLine)将请求发送给ASPNE ...
分类:
Web程序 时间:
2016-09-16 14:12:22
阅读次数:
304
Jenkins2 入门到精通系列文章。 Jenkins2 下载与启动jenkins2 插件安装jenkins2 hellopipelinejenkins2 pipeline介绍jenkins2 javahelloworldjenkins2 groovy入门jenkins2 pipeline入门jen ...
分类:
其他好文 时间:
2016-09-15 21:38:41
阅读次数:
1306