引入模块: import re 1.查找findall 匹配所有,每一项都是列表中的一个元素 search 只匹配从左到右的第一个,得到的不是结果,而是一个变量,通过这个变量的group方法来获取结果。 match 从头开始匹配,相当于search中的正则表达式加上一个^ 字符串处理的扩展:切割、替 ...
分类:
其他好文 时间:
2018-08-18 10:29:09
阅读次数:
169
RE模块 查找 findall 匹配所有每一项都是列表中的一个元素 re.findall() 正则表达式,带匹配的字符串,flag search 只匹配从左到右的第一个结果,得到的不是直接的结果,而是一个变量,通过这个变量group方法来获取结果 re.search 内存地址,这是一个正则的结果, ...
分类:
其他好文 时间:
2018-08-17 22:18:06
阅读次数:
103
在进行网络爬虫时,会经常有封ip的现象。可以使用代理池来进行代理ip的处理。 代理池的要求:多站抓取,异步检测。定时筛选,持续更新。提供接口,易于提取。 代理池架构:获取器,过滤器,代理队列,定时检测。 使用https://github.com/Germey/ProxyPool/tree/maste ...
分类:
其他好文 时间:
2018-08-17 20:56:33
阅读次数:
308
恢复内容开始 findall()用法 search() 从左至右查询第一个就返回 match() 自带尖叫号,只匹配开始,相当于search加尖叫号 split() sub() compile() 省时间 finder() 省空间 compile()与finder()连用省空间和时间 findall ...
分类:
其他好文 时间:
2018-08-17 20:05:33
阅读次数:
113
一. re模块 findall ret = re.findall('\d+', '3ser54gsd43sd5') print(ret) 是一个列表, ['3', '54', '43', '5'] search ret = re.search('\d+', '3ser54gsd43sd5') pri ...
分类:
其他好文 时间:
2018-08-17 20:01:14
阅读次数:
135
re模块 import re #引入正则模块基础方法 1.查找 1.findall : 匹配所有 每一项都是列表中的一个元素 2. search: 只匹配从左到右到第一个,得到的不是直接结果,而是一个变量,用过这个变量的group方法来获取结果 如果没有匹配到结果则返回None,使用group会报错 ...
分类:
其他好文 时间:
2018-08-17 19:12:41
阅读次数:
178
re模块 正则混合使用 永远不要起一个py文件的名字 这个名字和你已知的模块同名 而且没有意义 文件名字要有意义 查找: re模块的进阶 : 时间 / 空间 compile 节省使用正则表达式解决问题的时间 编译 正则表达式 编译成字节码 在多次使用的过程中 不会多次编译 findall 返回列表 ...
分类:
编程语言 时间:
2018-08-17 18:20:30
阅读次数:
222
模块的引用 import re 注:为.py文件取名时不能与模块的名字相同 re模块中的查找 findall 匹配所有条件相匹配,每一项都是列表中的元素 search 匹配从左到右的第一个结果,得到的是一个变量,通过这个变量的group()方法来获结果 需要注意的是若是没有匹配结果,就会报错,因此常 ...
分类:
其他好文 时间:
2018-08-17 17:51:51
阅读次数:
163
一、re模块下的常用方法 首先在使用re模块之前,需要引入re模块 import re 1.与查找相关的: 1.findall 返回列表,找到所有的匹配项 2.search 匹配从左到右第一个符合,返回一个变量,通过group方法取到值,没有匹配到就会返回None,使用group会报错。 3.mat ...
分类:
其他好文 时间:
2018-08-17 17:50:47
阅读次数:
187
re模块 基础方法: 首先要倒入模块,永远不要起一个py文件的名字,这个名字和你已知的模块同名 regex 查找 findall:匹配所有的结果 ret = re. findall("\d+","sdfadsfasdf 654多少客户1654654") print(ret) search :只匹配从 ...
分类:
其他好文 时间:
2018-08-17 12:13:21
阅读次数:
172