码迷,mamicode.com
首页 >  
搜索关键字:爬虫 scrapy    ( 11768个结果
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址
一.第一步是创建一个scrapy项目sh-3.2# scrapy startproject liuyifeiImagesh-3.2# chmod -R 777 liuyifeiImage/二.分析图片特征1.解决分页url部分:我们爬虫的start_url是"http://movie.douban....
分类:其他好文   时间:2014-10-04 16:10:56    阅读次数:461
nutch从搜索引擎到网络爬虫
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...
分类:其他好文   时间:2014-10-03 13:28:14    阅读次数:368
Scrapy爬虫 -- 01
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结取结构化的数据。 --from wiki 说白了就是基于python的爬虫框架。 安装: ubuntu 14.04 python2.7(python3不支持...
分类:其他好文   时间:2014-10-02 14:32:53    阅读次数:141
CentOS下安装scrapy时lxml无法安装的解决办法
要在centos下安装一个python的爬虫框架scrapy,可是一直遇到lxml无法安装,报错为 error:?command?‘gcc‘?failed?with?exit?status?1 查找资料后在Stack Overflow找到解决方法 sudo?yum?install?-y?gcc...
分类:其他好文   时间:2014-10-02 13:58:33    阅读次数:175
python爬虫_某桌面壁纸网站所有图片
#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...
分类:编程语言   时间:2014-10-01 21:46:21    阅读次数:273
一个简单的python爬虫,以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到。(不知道为什么???)目标是抓取前50页的爆乳图,代码如下:import urllib2,urllib,re,os'''http://www.dbmeizi.com/category/2?p=%'''...
分类:数据库   时间:2014-10-01 21:26:21    阅读次数:312
[scrapy] PIL老是出错,换成pillow解决问题
使用scrapy下载图片的时候,用PIL老是下载不成功出现如下错误:IOError: encoder jpeg not available 据说是安装PIL之前缺少一些相关的包freetype freetype-devel libpng libpng-devel libjpeg libjpeg-de...
分类:其他好文   时间:2014-10-01 19:47:11    阅读次数:164
scrapy snippet
1. spider文件from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector im...
分类:其他好文   时间:2014-10-01 19:29:51    阅读次数:186
scrapy 工作流程
Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:引擎打开一个域名,蜘蛛处理这个域名,然后获取第一个待爬取的URL。引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。引擎从调度那获取接下来进行爬取的页面。调度将下一个爬取的URL返回给引擎,引擎将他们通...
分类:其他好文   时间:2014-10-01 08:08:30    阅读次数:427
Mac OS使用技巧十九:Safari碉堡功能之二查看网页源码
因为大三下的时候选修了搜索技术,了解了网络上搜索引擎和网络爬虫的信息扒取的一些东西,后来我们做了一个比较水的东西,就是只扒取了几家较大的下载网站几十个软件的评分下载量等信息,当用户输入一个程序名称,我们会根据下载量和评分算出的分数做一个推荐排序。       咳,扯远了。那时候我们在windows下需要用火狐来查看网页的源代码,这点强大的Safari也是可以做到的,甚至Safari提供的查看源...
分类:Web程序   时间:2014-10-01 02:14:30    阅读次数:337
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!