一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul ...
分类:
其他好文 时间:
2021-02-02 11:24:43
阅读次数:
0
最近看了一个国外大佬的技术文章,我受益匪浅,为网站添加添加canonical标签是SEO优化中非常重要的一步,rrel="canonical"可以解决因网址不同但内容重复,从而造成权重分散的问题,目前百度、Google、雅虎、微软等搜索引擎都已支持此标签。 例子演示 https://www.nice ...
分类:
其他好文 时间:
2021-02-02 11:12:27
阅读次数:
0
优缺点对比:https://blog.csdn.net/ranran_5300/article/details/48129187 1、Access 全名是Microsoft Office Access,是由微软发布的关联式数据库管理系统。小型数据库,当数据库达到100M左右的时候性能就会下降。数据库 ...
分类:
数据库 时间:
2021-02-02 11:11:53
阅读次数:
0
1.接口地址:URL 2.接口类型/请求方法:常用GET/POST。 3状态码Code 4请求头Request header,cookie信息一般放在请求头里面 5请求体Request data 6响应体Response data 控制台中的这部分是什么?是请求行和响应行。 请求行一般为URL,Re ...
分类:
其他好文 时间:
2021-02-02 11:06:49
阅读次数:
0
打开File--new project,左边选择spring一栏, 右边勾选spring,下方的勾选springConfig.xml也要选上,会自动生成spring的配置文件 jar文件这里选择download即可,当然也可以灵活选择 webApplication 也勾选上 然后下一步,取好项目名称 ...
分类:
编程语言 时间:
2021-02-02 10:49:23
阅读次数:
0
备注:此处的hadoop版本是3.1.4 一、配置集群 1.1、配置yarn-site.xml <!-- Reducer获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle ...
分类:
其他好文 时间:
2021-02-02 10:48:15
阅读次数:
0
承接上篇:上篇文章讲到改造 go-zero 生成的 app module 中的 gateway & RPC 。本篇讲讲如何接入 异步任务 以及 log的使用。 Delay Job 日常任务开放中,我们会有很多异步、批量、定时、延迟任务要处理,go-zero中有 go-queue,推荐使用 go-qu ...
分类:
其他好文 时间:
2021-02-02 10:46:15
阅读次数:
0
1、创建 Spring Boot 应用,集成 Shiro 及相关组件,pom.xml ...
分类:
编程语言 时间:
2021-02-02 10:41:07
阅读次数:
0
#1、maven换源 apache-maven-3.5.2\conf 目录中的 settings.xml 文件、 修改maven 本地仓库地址 D:\Program Files创建文件夹MavenRepository ; 找到settings.xml 文件中 打开注释修改如下: D:\Program ...
分类:
其他好文 时间:
2021-02-01 12:50:48
阅读次数:
0
在Pom.xml里面添加了alibaba的fasterjson组件报错 <!-- 添加依赖插件 https://mvnrepository.com/ --> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artif ...
分类:
其他好文 时间:
2021-02-01 12:48:05
阅读次数:
0