python之scrapy初探

时间：2019-06-23 01:16:30 阅读：113 评论：0 收藏：0 [点我收藏+]

1、知识点

"""
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取
Scrapy模块：
        1、scheduler:用来存放url队列
        2、downloader：发送请求
        3、spiders:提取数据和url
        4、itemPipeline：数据保存

入门：
    1、创建一个scrapy项目
        scrapy startproject mySpider
    2、生成一个爬虫 ，#定义范围，防止爬去其他网址
        scrapy genspider sina "sina.com.cn"
    3、提取数据
        完善spider，使用xpath等方法
    4、保存数据
        pipeline中保存数据


项目详解：
    1、scrapy.cfg:项目配置文件
    2、items.py :需要爬去的字段
    3、middlewares.py：中间件
    4、pipelines.py:数据的处理和保存 ， item为爬去的数据
"""

2、目录结构

技术图片

3、解析案例

# -*- coding: utf-8 -*-
import scrapy


class SinaSpider(scrapy.Spider):
    name = ‘sina‘ #爬虫名
    allowed_domains = [‘sina.com.cn‘]  #允许爬取的范围
    start_urls = [‘http://sports.sina.com.cn/nba/‘]    #开始爬取的url

    def parse(self, response):
        # ret = response.xpath("//div[@class=‘-live-page-widget‘]//a/text()").extract()
        # print(ret)
        # pass

        li_list = response.xpath("//div[@class=‘-live-page-widget‘]")

        for li in list:
            item = { }
            item["data"]= li.xpath(".//a/text()").extract()[0]
            print(item)

python之scrapy初探

标签：数据保存 span color 保存数据字段模块开始 png self

原文地址：https://www.cnblogs.com/ywjfx/p/11070925.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行