标签:
1.安装 lxml (使用xpath)
2.安装 zope.interface
3.安装 twisted
出错先安装 sudo apt-get install build-essential python-dev
4.安装 pyOpenSSL
5.安装 pywin32
6.安装Scrapy
windows需要安装vs linux需要安装g++
一 生成tutorial项目执行
scrapy startproject tutorial
二 用pycharm打开项目在spiders文件夹下创建一个dmoz_spider.py
__author__ = ‘weilunhui‘
# import scrapy
from scrapy.contrib.spiders import CrawlSpider
class DmozSpider(CrawlSpider):
name = "douban"
start_urls = [
"http://movie.douban.com/top250"
]
def parse(self, response):
print(response.body)
三 在tutorial 下(含有scrapy.cfg文件的地方)执行
scrapy crawl douban ("douban"是和上面的dmoz_spider.py里的name保持一致)
运行结果会显示抓取下来的网页的内容
标签:
原文地址:http://www.cnblogs.com/weilunhui/p/4571875.html