CrawlSpider一直无法进入回调函数的 碰到的两个坑: 1、正则表达式写的不对 start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1'] link = LinkExtractor(allo ...
分类:
其他好文 时间:
2020-07-26 01:52:52
阅读次数:
85
= :精确匹配(必须全部相等) ~ :大小写敏感 ~* :忽略大小写 ^~ :只需匹配uri部分,不匹配正则表达式。 @ :内部服务跳转 匹配顺序: = > ^~ > ~* > /document/ > / request / :A request /index.html :B request /d ...
分类:
其他好文 时间:
2020-07-26 01:00:55
阅读次数:
62
正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/ 正则表达式测试工具 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则。 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用 ...
分类:
编程语言 时间:
2020-07-26 00:48:23
阅读次数:
76
python 网页解析器 1、常见的python网页解析工具有:re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。 2、常见网页解析器分类 (1)模糊匹配 :re正则表达式即为字符串式的模糊匹配模式; (2)结构化解析: Beat ...
分类:
编程语言 时间:
2020-07-26 00:29:13
阅读次数:
83
用正则表达式,去除无效字符非常简单。让我们看一个例子 const str = "https://en.wikipedia.org/" str.replace(/[<>|:"*?\\/]+/g, '') // => "httpsen.wikipedia.org" [] 称为字符类,JS 会把字符串与方 ...
分类:
其他好文 时间:
2020-07-26 00:22:37
阅读次数:
73
<div class="dadian_i_i_news_text" v-html="reMove(item.content)"></div> reMove: function(content) { return content.replace(/<\/?[^>]*>|(\n|\t|\r)|(\s)/ ...
分类:
其他好文 时间:
2020-07-26 00:14:59
阅读次数:
62
介绍 MQ 全称为 Message Queue,即消息队列,RabbitMQ 是由 Erlang 语言开发,基于 AMQP(Advanced Message Queue Protocol ,高级消息队列协议)协议实现的消息队列,它是一种应用程序之间的通信方法,消息队列在分布式系统开发中应用非常广泛, ...
分类:
其他好文 时间:
2020-07-25 23:22:13
阅读次数:
76
一、RabbitMQ概念 RabbitMQ是流行的开源消息队列系统,是AMQP(Advanced Message Queuing Protocol高级消息队列协议)的标准实现,用erlang语言开发。RabbitMQ据说具有良好的性能和时效性,同时还能够非常好的支持集群和负载部署,非常适合在较大规模 ...
分类:
系统相关 时间:
2020-07-25 11:38:42
阅读次数:
163
sed在处理文本时是逐行读取文件内容,读到匹配的行就根据指令做操作,不匹配就跳过。 sed是Linux下一款功能强大的非交互流式文本编辑器,可以对文本文件进行增、删、改、查等操作,支持按行、按字段、按正则匹配文本内容,灵活方便,特别适合于大文件的编辑。详细用法参考:shell脚本--sed的用法 s ...
分类:
系统相关 时间:
2020-07-25 10:05:51
阅读次数:
96
reg_test.cpp内容如下: #include <vector> #include <fmt/format.h> #include <console_color.h> #include <re2/re2.h> using namespace re2; using namespace std; ...
分类:
其他好文 时间:
2020-07-24 21:48:06
阅读次数:
101