Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212
同步/异步,阻塞/非阻塞的个人小总结
最近一直在用scrapy写编写爬虫程序,在阅读其源码和开源项目的时候,常常会接触到一些网络编程相关的东东。
首先,Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架, 它使用的是非堵塞的异步处理。
在网络编程中有 阻塞/非阻塞 和 同步/异步的概念,这里我做了一个总结:
因为中文语意的问题,很多时候确实会导致混用,而且...
分类:
其他好文 时间:
2015-01-19 19:10:04
阅读次数:
183
使用scrapy制作的小说爬虫爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660首先是安装scrapy,在Windows下的安装比较麻烦,大家好好百度下,这里就不细说了,在ubuntu下的安装apt-get install python...
分类:
其他好文 时间:
2015-01-16 16:08:56
阅读次数:
266
# -*- coding: utf-8 -*- import scrapy import chardet from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.ut...
分类:
其他好文 时间:
2015-01-14 09:39:24
阅读次数:
148
小说网站用的程序都是千篇一律的,jieqi + guanguang,无聊时间学习python+django,也做了一个小说网站,下面说一说做这个网站一些过程,制作这种采集站,最要紧的是要有一个好的采集器,在python的世界里面,爬取网页真是小菜一碟,urllib urllib2 requests ...
分类:
数据库 时间:
2015-01-12 14:16:15
阅读次数:
462
第三部分替换默认下载器,使用selenium下载页面对详情页稍加分析就可以得出:我们感兴趣的大部分信息都是由javascript动态生成的,因此需要先在浏览器中执行javascript代码,再从最终的页面上抓取信息(当然也有别的解决方案)。scrapy本身提供了Middleware机制。利用Dowloader..
分类:
编程语言 时间:
2015-01-12 11:09:41
阅读次数:
371
selenium本是用来对webapplication做自动化测试的。不过,它有个天大的好处:能让我们用python(当然不仅是python)代码模拟人对浏览器的操作。所需软件:python2.7,firefox25.0.1(版本不能太高),selenium2.44.0(使用pipinstallselenium安装即可)1.打开浏览器,请求百度主页,5秒..
分类:
编程语言 时间:
2015-01-12 06:57:37
阅读次数:
700
第一部分:任务描述起始页面:http://shanhuijj.tmall.com/search.htm?spm=a1z10.3-b.w4011-3112923129.1.KjGkS2这个页面列出了网店的所有宝贝,如图:点击进入宝贝详情页面,例如:http://detail.tmall.com/item.htm?spm=a1z10.3-b.w4011-3112923129.62.xGx75B&id=1091021..
分类:
编程语言 时间:
2015-01-12 06:55:47
阅读次数:
800
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:
编程语言 时间:
2015-01-12 06:53:47
阅读次数:
945
什么是爬虫?从逻辑角度讲,爬虫对应一个树。树枝是网页,树叶是感兴趣的信息。当我们从一个URL出发查找感兴趣的信息时,当前URL返回的内容可能包含我们感兴趣的信息,也可能包含另一个可能包含我们感兴趣的信息的URL。一个爬虫对应一次信息搜索,信息搜索过程会建立起一棵树。s..
分类:
编程语言 时间:
2015-01-11 06:25:52
阅读次数:
641