码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫框架 Scrapy 使用

时间:2020-06-17 20:27:09      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:排除   爬取   下载   fir   配置文件   coding   firefox   生成   爬虫   

一、创建爬虫项目

  1. 创建爬虫项目

    Scrapy  startproject  myproject (爬虫项目名)

  2. myproject项目文件夹中包含:

    1. 同名(myproject)文件夹   

    2. cfg配置文件 (指定项目文件--myproject,指定项目文件的配置文件myspider文件下的setting文件)

  3. 进入到myproject文件夹中,包含:

    1. spiders文件夹(爬虫文件存放位置)  

    2. setting文件及其它Scrapy框架的模块文件

  4. 创建爬虫

    Scrapy  genspider  baidu (爬虫文件名)  baidu.com (要爬取的域名)

    说明:执行命令后,会在spiders文件夹中生成对应的爬虫文件,及代码。

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpider(scrapy.Spider):
    name = baidu
    # 允许爬取的域名,可以排除掉页面中其它域名的内容
    allowed_domains = [www.baidu.com]
    # 起始url
    start_urls = [http://www.baidu.com/]
    
    # 获取响应数据的接口
    def parse(self, response):
        pass

 

二、配置爬虫项目

  1. 配置setting文件

  第一步:初步修改setting文件

# 请求头user-agent设置
USER_AGENT = Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/77.0

# 是否遵守网站的robots协议
ROBOTSTXT_OBEY = False

# 下载延迟(发送请求的间隔)
DOWNLOAD_DELAY = 3

 

  第二步:完善爬虫文件代码

  

  

 

 

 

  

爬虫框架 Scrapy 使用

标签:排除   爬取   下载   fir   配置文件   coding   firefox   生成   爬虫   

原文地址:https://www.cnblogs.com/leafchen/p/13154146.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!