代码放在Github上了。https://github.com/lpe234/meizi_spider? 基于Scrapy(0.22)爬虫示例 获取(http://www.meizitu.com/)网站图片,并保存到本地文件夹(meizi_images)下。 运行 python?run_spider.py??#?即...
分类:
其他好文 时间:
2015-06-04 22:56:26
阅读次数:
306
Scrapy 安装之前依赖一堆东西总之装之前 又去看了一些 linux下 跟包有关的口令最后还是直接下了新立得包管理器synaptic之前记得有装pip,但是不知道为什么在管理器上没有显示后来干脆又用synaptic装了一个 不知道会不会冲突还有就是import lxml报错import OpenS...
分类:
其他好文 时间:
2015-06-03 06:09:11
阅读次数:
119
Spider类定义了如何爬取某个网站。包括爬取的动作以及如何从网页的内容中提取结构化数据。
Spider就是定义爬取的动作及分析某个网页的地方。爬取的循环:①以初始的URL初始化Request,并设置回调函数。当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数。
spider中初始的request是通过调用start_requests()来获取的。start_r...
分类:
其他好文 时间:
2015-06-02 09:29:28
阅读次数:
440
一、BeautifulSoup模块
关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好
二、Scrapy + Selenium 模块
这两个模块结合起来使用常用于解析javascript...
分类:
编程语言 时间:
2015-05-31 01:28:59
阅读次数:
162
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行。本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,暂时不想再上面装太多软件。Scrapy的入门教程见下面链接:Scrapy入门教程上面的入门教程是很基础的,...
分类:
其他好文 时间:
2015-05-28 21:28:40
阅读次数:
618
ItemsItem对象是种简单的容器,保存了爬取到的数据。其提供了类似于字典的API以及用于声明可用字段的简单语法。声明ItemItem使用简单的class定义语法以及Field对象来声明。import scrapy
class Product(scrapy.Item): #Product类继承自Item类
name = scrapy.Field()
price = scrapy.F...
分类:
其他好文 时间:
2015-05-27 13:59:41
阅读次数:
211
这几天为了做课程设计,想起之前学过python,所以想起要去做个爬虫,于是用上了scrapy框架,当然在这期间也了解了一下requests,但是还是没有scrapy方便,毕竟它没有处理cookie的机制,需要自己去手动处理,比较麻烦,下面我来先稍微讲讲自己对scrapy运行原理的理解:
如图我们可以看到这是scrapy的大致结构,scrapy的运行流程:
1.scrapy engine打开...
分类:
编程语言 时间:
2015-05-26 10:49:54
阅读次数:
211
这个项目是一个基于 Python scrapy 的爬虫项目,截至到目前(2015年05月24日),初衷是希望能够爬取 www.xueqiu.com 中的某个给定的股票的页面下 -- 比如‘融创中国’的 -- 所有的来自用户的讨论(至于后续的功能再说,肯定是希望用更多的数据然后根据高大上的大数据+机器学习来预测股价)。
以下是目前的调研结论:
以‘融创中国’这只股票为例,股票代号是0...
分类:
其他好文 时间:
2015-05-24 17:34:50
阅读次数:
4452
学习一门语言之前,要先搞清楚为什么要学习它,不能因为它火,就去学习,要明白火在哪里,优势在哪,在哪方面是其他语言无法取代的。那么我学习python的初衷就是因为它有一个出色的轻量级爬虫框架 scrapy,其实想应用框架是不需要学习python的,因为python的语法真的是很简单易懂,但既然接触了,就要系统的学习一下吧。...
分类:
编程语言 时间:
2015-05-24 14:16:53
阅读次数:
145
scrapy是通过命令行进行控制的,你可以在命令行中输入一个scrapy,会出现一拍命令。
你也可以通过tree来查看scrapy的目录结构,scrapy.cfg存放的目录被认为是项目的根目录,该文件中包含python模块名的字段定义了项目的设置。下面的代码是我一个爬取天气的爬虫中的.cfg文件。
# Automatically created by: scrapy startproject
...
分类:
其他好文 时间:
2015-05-22 13:37:27
阅读次数:
245