搜索关键字：scrapy，搜索到2725个结果！码迷,mamicode.com！

小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战

人生苦短，我用 Python 前文传送门： "小白学 Python 爬虫（1）：开篇" "小白学 Python 爬虫（2）：前置准备（一）基本类库的安装" "小白学 Python 爬虫（3）：前置准备（二）Linux基础入门" "小白学 Python 爬虫（4）：前置准备（三）Docker基础入门" ...

分类：编程语言时间：2020-01-15 09:15:57 阅读次数：78

CrawlSpider

CrawlSpider 它就是一个类，是scrapy.Spider的一个子类(派生类) 功能：非常强大很方便的实现全站数据的爬取两个属性(对象) 链接提取器如何进行链接的提取由开发人员制定相关规则通过相应的规则进行链接的提取去哪进行链接的提取就是在页面(起始URL)中提取规则解析器 ...

分类：其他好文时间：2020-01-14 20:39:32 阅读次数：75

scrapy爬虫案例数据存入MongoDB

爬虫py文件 pipelines.py 文件存入Mongo时要注意settings.py的配置注释部分需要打开 settings.py文件 items.py ...

分类：数据库时间：2020-01-14 13:32:31 阅读次数：165

scrapy+baiduapi搭建一个私人小说阅读器（智能爬取加智能朗读）(一)

写在前面的话喜欢看小说，平时都是通过电脑或者手机看小说，手机听小说（智能语音），或者喜马拉雅搜索小说听（好多喜欢的都收费o(╥﹏╥)o，然后网上好多免费资源却不能听），想在电脑上听小说，目前Microsoft Edge可以阅读网页文本很赞，不能自动翻译很烦(＃￣～￣＃)，而且智能语音库体验很差，所 ...

分类：Windows程序时间：2020-01-13 16:07:56 阅读次数：113

scrapy中发起post请求

def start_requests(self): for i1 in self.start_urls: data = { 'page': '1', 'rows': '20', 'annNum': '1678', 'annType': '', 'tmType': '', 'coowner': '', ...

分类：其他好文时间：2020-01-13 11:15:12 阅读次数：103

Scrapy安装

1.安装lxml lxml是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。网址选择对应的Python版本安装。 2.安装zope.interface 直接使用pip命令下载 3.安装Twisted Twisted是用Python实现的基于事件驱动的网络引擎框架，可以直接pip安 ...

分类：其他好文时间：2020-01-13 10:50:27 阅读次数：78

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

人生苦短，我用 Python 前文传送门： "小白学 Python 爬虫（1）：开篇" "小白学 Python 爬虫（2）：前置准备（一）基本类库的安装" "小白学 Python 爬虫（3）：前置准备（二）Linux基础入门" "小白学 Python 爬虫（4）：前置准备（三）Docker基础入门" ...

分类：编程语言时间：2020-01-12 15:09:56 阅读次数：103

Scrapyd的工程管理

引用摘自《Python绝技虫术》第三章一、三大环境开发环境、测试环境与生产环境，其关系如下图所示：开发环境的侧重点是增加开发效率，Scrapy命令行工具就是一套针对爬虫开发与维护的工具。只要细细研读每个指令的作用，就会发现它们只不过是将一系列的人工操作指令通过一个指令一次性地完成罢了，其本质 ...

分类：其他好文时间：2020-01-11 17:00:47 阅读次数：134

爬虫学习 15.scrapy中selenium的应用

爬虫学习 15.scrapy中selenium的应用引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的 ...

分类：其他好文时间：2020-01-10 22:18:58 阅读次数：81

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

爬虫学习 17.基于scrapy redis两种形式的分布式爬虫 redis分布式部署 1.scrapy框架是否可以自己实现分布式？不可以。原因有二。其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一 ...

分类：其他好文时间：2020-01-10 22:14:46 阅读次数：103