搜索关键字：scrapy，搜索到2725个结果！码迷,mamicode.com！

scrapy-redis 报 invalid literal for int() with base 10:

我在scrapy settings.py中填的REDIS_URL是这样的, 密码中含有特俗符合, 导致连接不上redis服务器 REDIS_URL = 'redis://:^*,dfdas.*,@192.168.10.34:6379/1' 网上有人说,先encode密码, 连接的时候再decode, ...

分类：其他好文时间：2020-02-22 23:55:44 阅读次数：113

分布式爬虫架构设计与实现

由于scrapy框架需要更多的学习成本，还有分布式爬虫也需要redis来实现，调度方式也不是很符合业务要求，于是就自己设计了个分布式爬虫架构。架构图如下：爬虫的客户端为tornado编写的服务，爬虫管理器也是tornado编写的后台管理服务，主要功能：获取客户端的状态信息，爬虫进程数量，启动指定数量的爬虫进程，中断、重启爬虫，爬虫异常通知等。爬虫进程与调度器间的请求非常频繁，所以使用socket长

分类：其他好文时间：2020-02-22 23:55:28 阅读次数：128

虚拟环境的基本使用 virtualenv，virtualenvwrapper

前言：为什么要用虚拟环境在实际项目开发中，我们通常会根据自己的需求去下载各种相应的框架库，如falsk，Scrapy等，但是可能每个项目使用的框架库并不一样，或使用框架的版本不一样，这样需要我们根据需求不断的更新或卸载相应的库。直接怼我们的系统级的python环境会给我们的开发环境和项目造成很多不 ...

分类：移动开发时间：2020-02-22 13:35:51 阅读次数：147

python小白学习记录 scrapy 结合 selenium 使用自己的chrome浏览器

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenum\AutomationProfile" 此条命令复制到命令行，打开端口为9222的浏览器，勿关闭（此前应先配置环境变量否则无chrome.exe此命令） chr ...

分类：编程语言时间：2020-02-21 17:53:16 阅读次数：215

scrapy爬虫框架(五)-CrawlSpider

scrapy爬虫框架(五) CrawlSpider 通过CrawlSpider的链接提取器爬取微信小程序社区的文章创建爬虫文件此前要进入爬虫文件夹，使用命令,再创建模版（templ）爬虫运行效果 ...

分类：其他好文时间：2020-02-17 14:13:33 阅读次数：72

scrapy爬虫框架(四)-爬取多个网页

scrapy爬虫框架(四) 爬取多个网页思路：通过判断句子控网站中，下一页是否还有a标签来获取网址，拼接后继续爬取，最终写入json文件中。 juziSpider.py settings.py pipelines.py ...

分类：Web程序时间：2020-02-17 12:11:28 阅读次数：86

7.python虚拟环境详解

1.为什么创建虚拟环境？和其他大多数现代编程语言一样，Python对包和模块的下载、存储以及管理有其自己的一套方法，Python的包一般都存在几个特定的地方，大部分系统包会存在sys.prefix指定的路径下；大部分第三方包，比如easy_install或pip会将包存放在site-package ...

分类：编程语言时间：2020-02-16 12:42:39 阅读次数：78

Scrapy入门教程

参考:https://www.cnblogs.com/ellisonzhang/p/11113277.html https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html ...

分类：其他好文时间：2020-02-15 21:47:24 阅读次数：61

scrapy-redis分布式爬虫实战

Scrapy Redis代码实战 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 scrapy redis在scrapy的架构上增加了redis，基于redis的特性拓展了如下 ...

分类：其他好文时间：2020-02-12 23:48:55 阅读次数：76

Nginx禁止蜘蛛爬取服务器

修改nginx.conf，禁止网络爬虫的ua，返回403 添加agent_deny.conf配置文件 #禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA为空的访问 i ...

分类：其他好文时间：2020-02-12 18:38:56 阅读次数：84

共2725条上一页 1 ... 25 26 27 28 29 ... 273 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)