http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/overview.html以上链接是很好的scrapy学些资料.感谢marchtea的翻译.在学习过程中,碰到一个很棘手的问题: 中文的显示和存储. (中文在控制台显示的为\u77e5\u540...
分类:
Web程序 时间:
2015-09-26 00:20:25
阅读次数:
306
总在网上看大家的安装教程,这回自己也贡献一份!!!和民航大学合作项目,去给人家装环境,连简单的Scrapy都没装上,虽然有对方硬件设施坑爹的因素,但主要还是自己准备不充分。一份好的安装文档应该是可以完美重现的。所以做了下面这份:我按照这套方法连着重装了四次,如果各位直接复制命令,应该是一点问题都没有...
分类:
编程语言 时间:
2015-09-25 22:55:05
阅读次数:
245
其实很简单,却因为一些小问题,折腾不少时间,简要记录一下,以备后需。>> scrapy startproject lagou>> cd lagou>> scrapy gen lagou_jd www.lagou.com定义item在items.py中继续完善定义:# -*- coding: utf-...
分类:
其他好文 时间:
2015-09-23 13:25:25
阅读次数:
344
安装setuotool执行该命令 curl https://bootstrap.pypa.io/ez_setup.py -o - | pythonmac OS 自带python 2.7.6 从官网下载2.7.9安装后,在终端输入python 自动改变为2.7.9版本,且自带pip执行pip inst...
分类:
编程语言 时间:
2015-09-20 01:44:27
阅读次数:
568
安装好scrapy后执行scrapy crawl 命令 出现 no module named win32api错误 需要在http://sourceforge.net/projects/pywin32/files/ 该网站下载对应版本的win32模块(pywin32-218.win-amd64-p....
分类:
编程语言 时间:
2015-09-19 12:08:25
阅读次数:
194
每日一练,每日一博。 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。1.确定目标网站:豆瓣电影http://movie.douban.com/top2502.创...
分类:
其他好文 时间:
2015-09-17 01:09:31
阅读次数:
318
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取Web站点并从页面中提取结构化的数据.它最吸引人的地方在于任何人都可以根据需求方便的修改。 MongoDB是现下非常流行的开源的非关系型数据库(NoSql),它是以“key-value”的形式存储数据的,在大数...
分类:
数据库 时间:
2015-09-16 12:08:07
阅读次数:
262
本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看,这种爬虫是如何工作的:我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然后爬取这...
分类:
其他好文 时间:
2015-09-15 18:03:40
阅读次数:
147
今天又学习了一天scrapy。其中基本用法是 设置strat_url,实现parse(),实现parse()的回调函数prase_item(),以及parse_item()的回调函数parse_item_details();回调函数的意思,有点懂,又时常糊涂;在知乎上看了个帖子,比较通俗易懂,摘录如...
分类:
其他好文 时间:
2015-09-14 21:02:06
阅读次数:
253
1.用easy_install安装pip,pip 是对 easy_install的升级。2.sudo pip install scrapy时会报错#include "libxml/xmlversion.h" ^ 1 error generated. error: command '...
分类:
其他好文 时间:
2015-09-13 11:42:38
阅读次数:
130