码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
scrapy-redis 报 invalid literal for int() with base 10:
我在scrapy settings.py中填的REDIS_URL是这样的, 密码中含有特俗符合, 导致连接不上redis服务器 REDIS_URL = 'redis://:^*,dfdas.*,@192.168.10.34:6379/1' 网上有人说,先encode密码, 连接的时候再decode, ...
分类:其他好文   时间:2020-02-22 23:55:44    阅读次数:113
分布式爬虫架构设计与实现
由于scrapy框架需要更多的学习成本,还有分布式爬虫也需要redis来实现,调度方式也不是很符合业务要求,于是就自己设计了个分布式爬虫架构。架构图如下:爬虫的客户端为tornado编写的服务,爬虫管理器也是tornado编写的后台管理服务,主要功能:获取客户端的状态信息,爬虫进程数量,启动指定数量的爬虫进程,中断、重启爬虫,爬虫异常通知等。爬虫进程与调度器间的请求非常频繁,所以使用socket长
分类:其他好文   时间:2020-02-22 23:55:28    阅读次数:128
虚拟环境的基本使用 virtualenv,virtualenvwrapper
前言:为什么要用虚拟环境 在实际项目开发中,我们通常会根据自己的需求去下载各种相应的框架库,如falsk,Scrapy等,但是可能每个项目使用的框架库并不一样,或使用框架的版本不一样,这样需要我们根据需求不断的更新或卸载相应的库。直接怼我们的系统级的python环境会给我们的开发环境和项目造成很多不 ...
分类:移动开发   时间:2020-02-22 13:35:51    阅读次数:147
python小白学习记录 scrapy 结合 selenium 使用自己的chrome浏览器
chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenum\AutomationProfile" 此条命令复制到命令行,打开端口为9222的浏览器 ,勿关闭 (此前应先配置环境变量 否则无chrome.exe此命令) chr ...
分类:编程语言   时间:2020-02-21 17:53:16    阅读次数:215
scrapy爬虫框架(五)-CrawlSpider
scrapy爬虫框架(五) CrawlSpider 通过CrawlSpider的链接提取器爬取微信小程序社区的文章 创建爬虫文件 此前要进入爬虫文件夹,使用 命令,再创建模版(templ)爬虫 运行效果 ...
分类:其他好文   时间:2020-02-17 14:13:33    阅读次数:72
scrapy爬虫框架(四)-爬取多个网页
scrapy爬虫框架(四) 爬取多个网页 思路:通过判断句子控网站中,下一页是否还有a标签来获取网址,拼接后继续爬取,最终写入json文件中。 juziSpider.py settings.py pipelines.py ...
分类:Web程序   时间:2020-02-17 12:11:28    阅读次数:86
7.python虚拟环境详解
1.为什么创建虚拟环境? 和其他大多数现代编程语言一样,Python对包和模块的下载、存储以及管理有其自己的一套方法,Python的包一般都存在几个特定的地方,大部分系统包会存在sys.prefix指定的路径下;大部分第三方包,比如easy_install或pip会将包存放在site-package ...
分类:编程语言   时间:2020-02-16 12:42:39    阅读次数:78
Scrapy入门教程
参考:https://www.cnblogs.com/ellisonzhang/p/11113277.html https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html ...
分类:其他好文   时间:2020-02-15 21:47:24    阅读次数:61
scrapy-redis分布式爬虫实战
Scrapy Redis代码实战 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 scrapy redis在scrapy的架构上增加了redis,基于redis的特性拓展了如下 ...
分类:其他好文   时间:2020-02-12 23:48:55    阅读次数:76
Nginx禁止蜘蛛爬取服务器
修改nginx.conf,禁止网络爬虫的ua,返回403 添加agent_deny.conf配置文件 #禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA为空的访问 i ...
分类:其他好文   时间:2020-02-12 18:38:56    阅读次数:84
2725条   上一页 1 ... 25 26 27 28 29 ... 273 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!