正则表达式实际上爬虫一共就四个主要步骤:明确目标(要知道你准备在哪个范围或者网站去搜索)爬(将所有的网站的内容全部爬下来)取(去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式匹配规则re模块一般使用步骤使用compile()函数将正则表达式的字符串形式编译为一个Pattern对象注意:re对特
分类:
编程语言 时间:
2020-04-13 23:12:52
阅读次数:
83
1、正则表达式 - 简介 2、正则表达式 - 语法 3、正则表达式 - 元字符 4、正则表达式 - 运算符优先级 5、正则表达式 - 匹配规则 6、正则表达式 - 示例 ...
分类:
其他好文 时间:
2020-01-28 12:12:40
阅读次数:
47
字符 描述 例子 \ 将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符。 \n 表示换行符、\d 匹配 [0-9] 的数字 ^ 匹配输入字符串的开始位置。 ^abc 表示匹配有 abc 开头的字符串 $ 匹配输入字符串的结束位置。 ^\d$ 表示匹配一个 [0-9] 的数字 * 匹 ...
分类:
其他好文 时间:
2020-01-20 11:15:06
阅读次数:
92
匹配规则:多个ip地址使用,号进行分割 例如:1.1.1.1,2.2.2.2var iplist =/^((25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))\.){3}(25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d))|\*)((\/([01 ...
分类:
其他好文 时间:
2019-10-31 13:18:03
阅读次数:
249
nginx-location正则表达式匹配规则及动静分离 发表于 2018年03月5日 | 分类于 nginx | 0 nginx,location常用正则表达式,及nginx动静分离 nginx匹配规则 123456 ~ 波浪线表示执行一个正则匹配,区分大小写~* 表示执行一个正则匹配,不区分大小 ...
分类:
其他好文 时间:
2019-10-08 14:18:07
阅读次数:
96
URL配置基本格式 参数说明: 正则表达式:一个正则表达式字符串 views视图函数:一个可调用对象,通常为一个视图函数或一个指定视图函数路径的字符串 参数:可选的要传递给视图函数的默认参数(字典形式) 别名:一个可选的name参数 正则表达式 第一个参数是正则表达式,匹配规则按照从上往下一次匹配, ...
分类:
其他好文 时间:
2019-06-11 01:14:02
阅读次数:
105
基本模式匹配一切从最基本的开始。模式,是正规表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如: ^once这个模式包含一个特殊的字符^,表示该模式只匹配那些以once开头的字符串 ...
分类:
其他好文 时间:
2018-10-28 19:14:39
阅读次数:
140
正则表达式 - 匹配规则 基本模式匹配 一切从最基本的开始。模式,是正则表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如: 这个模式包含一个特殊的字符^,表示该模式只匹配那些以o ...
分类:
其他好文 时间:
2018-05-19 10:33:11
阅读次数:
124
常用的正则表达式匹配规则 \d 表示一个数字字符,等价于 [0-9] \D 表示一个非数字字符,等价于 [^\d] \s 表示一个空白字符,等价于 [<空格>\t\r\n\f\v] \S 表示一个非空白字符,等价于 [^\s]\w 表示一个单词字符(数字或字母),等价于 [A-Za-z0-9_]\W ...
分类:
其他好文 时间:
2018-05-05 00:27:15
阅读次数:
174