Linux kernel官网cgit工具不支持按变更代码进行补丁搜索,想到个办法就是把补丁都抓下来,这样可以在本地搜索。花了2个小时写了个小工具,话不多说,直接看效果: E:\docs\TOOLS\python\patch_spider>python patch_spider.py linux-3. ...
分类:
系统相关 时间:
2016-11-18 23:03:14
阅读次数:
359
在已有的git库中搭建新的库,并将本地的git仓库,上传到服务器的git库中,从而开始一个新的项目。 首先是在本地操作: 在本地新建文件夹spider,进入到spider中:如下 下一步登录到远程的服务器中: 登录到远程的git服务器上,到你要创建仓库的位置然后进入spider.git目录。 git ...
分类:
其他好文 时间:
2016-11-15 13:25:55
阅读次数:
259
1:在spider中返回一个自定义的字典,老版本中需要先定义一个Item,填充后再返回一个对象 新版本中可以直接返回一个字典 2:Per-spider settings 为每个spider进行单独设置,以前只能在settings文件中设置,在settings中的设置是全局的会作用到每个spider, ...
分类:
其他好文 时间:
2016-11-15 13:24:53
阅读次数:
138
burpsuite爬行网站 Scope : 定义自动抓取的范围,过滤无关域名 Target --> Site map --> 右击一个网址 --> Add to scope 开始爬行: Target --> Site map --> 右击一个网址(你想要爬行的网站) --> Spider this ...
分类:
Web程序 时间:
2016-11-11 23:47:19
阅读次数:
567
搜索引擎对html代码是非常优化的,所以html的优化是做好推广的第一步。一个符合seo规则的代码大体如下界面所示。 ...
分类:
Web程序 时间:
2016-11-09 15:30:46
阅读次数:
299
阶段性总结 Boolean retrieval 单词搜索 【Qword1 and Qword2】 O(x+y) 【Qword1 and Qword2】- 改进: Galloping Search O(2a*log2(b/a)) 【Qword1 and not Qword2】 O(m*log2n) 【 ...
分类:
其他好文 时间:
2016-11-08 20:25:41
阅读次数:
230
CrawlSpider也继承自Spider,所以具备它的所有特性,这些特性上章已经讲过了,就再在赘述了,这章就讲点它本身所独有的。 参与过网站后台开发的应该会知道,网站的url都是有一定规则的。像django,在view中定义的urls规则就是正则表示的。那么是不是可以根据这个特性来设计爬虫,而不是 ...
分类:
其他好文 时间:
2016-11-08 14:02:47
阅读次数:
502
1、Web Spider简介Web Spider,又称为网络爬虫,是一种自动抓取互联网网页信息的机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采...
分类:
Web程序 时间:
2016-11-03 19:08:09
阅读次数:
203
scrapy爬虫还是很简单的,主要是三部分:spider,item,pipeline 其中后面两个也是通用套路,需要详细解析的也就是spider。 具体如下: 在网上找了几个汽车网站,后来敲定,以易车网作为爬取站点 原因在于,其数据源实在是太方便了。 看这个页面,左边按照品牌排序,搜索子品牌,再挨个 ...
分类:
其他好文 时间:
2016-10-20 14:35:25
阅读次数:
251