磁盘使用情况root@ubuntu:/data/server/spider/面试题#cat02check_disk.pyimporttimeimportosnew_time=time.strftime(‘%Y-%m-%d‘)print(new_time)disk_status=os.popen(‘df-h‘).readlines()str1=‘‘.join(disk_status)withopen(new_time+‘.log‘,‘w‘)asf:f.write(‘%s‘%str1)f.flu..
分类:
编程语言 时间:
2017-11-21 23:49:06
阅读次数:
287
一、中间件 class SpiderMiddleware(object): def process_spider_input(self,response, spider): """ 下载完成,执行,然后交给parse处理 :param response: :param spider: :return ...
分类:
其他好文 时间:
2017-11-20 20:28:13
阅读次数:
133
0.def _next_request_from_scheduler(self, spider): C:\Program Files\Anaconda2\Lib\site-packages\scrapy\core\engine.py 1. request = slot.scheduler.next_ ...
分类:
其他好文 时间:
2017-11-19 23:49:54
阅读次数:
665
Scrapy不是一个函数功能库,而是一个爬虫框架。爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。 1.scrapy爬虫框架结构 数据流向步骤1: 1 Engine从Spider处获得爬取请求(Request)2 Engine将爬取请求转发给S ...
分类:
其他好文 时间:
2017-11-19 19:46:58
阅读次数:
155
1.第一次nextcall.schedule()将从 start_requests 取出一个 request 之后放入Scheduler,反复执行到取完。 C:\Program Files\Anaconda2\Lib\site-packages\scrapy\core\engine.py C:\Pr ...
分类:
其他好文 时间:
2017-11-19 19:43:35
阅读次数:
2267
一、start_requests Scrapy初开始运行的时候是执行的是父类Spider里的start_requests方法 也可以自己重写: 也可以用 return [Request(...)] 的形式替代 yield Reuest(...) 因为源码里会对 start_requests()方法的 ...
分类:
其他好文 时间:
2017-11-18 23:32:52
阅读次数:
251
刚刚研究学习了一个新的技能,觉得自己水平又升了一级。就是跨页面item 抓取的问题。以前一直不明白。代码如下! item申明如下: spider.py如下 ...
分类:
编程语言 时间:
2017-11-17 19:51:45
阅读次数:
202
开篇声明 文章讲解源码不一定从入口开始 主题更注重 思路讲解以及核心函数 ok? 废话到此为止 /scrapy/downloadermiddlewares/ 文件夹下是下载器的 中间件 简单说就是 你请求 or 返回数据都经过他 其中 scrapy/downloadermiddlewares/red ...
分类:
其他好文 时间:
2017-11-17 16:11:06
阅读次数:
152
scrapy由下面几个部分组成spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据items:定义我们需要的结构化数据,使用相当于dictpipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等middlewares:中间件,相当于钩子,可以对爬取前后..
分类:
其他好文 时间:
2017-11-15 23:39:01
阅读次数:
233
root@ubuntu:/data/server/spider#catfanyi2.py#coding:utf-8importjsonimportrequestsimportsysclassFanYi:def__init__(self,query_str):#准备语言检测的url和数据self.headers=self.headers={‘User-Agent‘:‘Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGe..
分类:
其他好文 时间:
2017-11-12 20:55:41
阅读次数:
196