码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址
一.第一步是创建一个scrapy项目sh-3.2# scrapy startproject liuyifeiImagesh-3.2# chmod -R 777 liuyifeiImage/二.分析图片特征1.解决分页url部分:我们爬虫的start_url是"http://movie.douban....
分类:其他好文   时间:2014-10-04 16:10:56    阅读次数:461
Scrapy爬虫 -- 01
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结取结构化的数据。 --from wiki 说白了就是基于python的爬虫框架。 安装: ubuntu 14.04 python2.7(python3不支持...
分类:其他好文   时间:2014-10-02 14:32:53    阅读次数:141
CentOS下安装scrapy时lxml无法安装的解决办法
要在centos下安装一个python的爬虫框架scrapy,可是一直遇到lxml无法安装,报错为 error:?command?‘gcc‘?failed?with?exit?status?1 查找资料后在Stack Overflow找到解决方法 sudo?yum?install?-y?gcc...
分类:其他好文   时间:2014-10-02 13:58:33    阅读次数:175
[scrapy] PIL老是出错,换成pillow解决问题
使用scrapy下载图片的时候,用PIL老是下载不成功出现如下错误:IOError: encoder jpeg not available 据说是安装PIL之前缺少一些相关的包freetype freetype-devel libpng libpng-devel libjpeg libjpeg-de...
分类:其他好文   时间:2014-10-01 19:47:11    阅读次数:164
scrapy snippet
1. spider文件from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector im...
分类:其他好文   时间:2014-10-01 19:29:51    阅读次数:186
scrapy 工作流程
Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:引擎打开一个域名,蜘蛛处理这个域名,然后获取第一个待爬取的URL。引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。引擎从调度那获取接下来进行爬取的页面。调度将下一个爬取的URL返回给引擎,引擎将他们通...
分类:其他好文   时间:2014-10-01 08:08:30    阅读次数:427
win 64位系统安装带有c编写的python模块出现ValueError: [u‘path‘]解决
关于win 64位机器安装Scrapy的问题:http://steamforge.net/wiki/index.php/How_to_Install_Scrapy_in_64-bit_Windows_7 在安装Scrapy是要安装一系列的依赖模块, 出现问题: 1、error: Unable to find vcvarsall...
分类:编程语言   时间:2014-09-30 13:46:39    阅读次数:341
fatal error: 'libxml/xmlversion.h' file not found
问题:MACOS安装scrapy时,安装lxml出现错误In file included from src/lxml/lxml.etree.c:232:/tmp/easy_install-O2UfP7/lxml-3.4.0/src/lxml/includes/etree_defs.h:14:10: ...
分类:其他好文   时间:2014-09-15 22:30:19    阅读次数:407
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格。搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫。先分析商品页面,在http://www.muyin...
分类:Web程序   时间:2014-09-14 18:00:07    阅读次数:195
python 根据文件创建时间排序
#coding:utf8import os,timedirectory = "d:/scrapy tutorial/"t = []d = {}for filename in os.listdir(directory): path = directory + filename ...
分类:编程语言   时间:2014-09-12 22:02:04    阅读次数:313
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!