[TOC] 正则表达式,一般用于字符串匹配. 这里我们需要用到re模块来学习正则表达式. r 的作用 re模块的常用功能 findall 返回值:列表 列表中是所有匹配到的项 ?:在有分组的情况下findall()函数,不只拿分组里的字符串,拿所有匹配到的字符串,注意?:只用于不是返回正则对象的函数 ...
分类:
其他好文 时间:
2019-06-25 15:18:17
阅读次数:
132
``` import re string = '愤怒的葡萄' pattern = '(.*?)' # pattern = '.*?\s' s = re.compile(pattern).findall(string) print(s) ```  1.基本用法 2.正则匹配常用格式 1.^ 类似字符串内置方法里面的startswith 2.a|b 3.[a,b] 4.a$ 类似字符串内置方法里面的endswith 5. 6.{n} 7.\ 8.\+ 9.a? 10.\模式 一个\接 ...
分类:
编程语言 时间:
2019-06-13 20:15:40
阅读次数:
137
# encoding:utf8 import re # findall方法,查找全部匹配到的结果 s = 'abcabbca3c' print(re.findall('ab', s)) # 结果为:['ab', 'ab'] # . 单个字符 s = 'abcabbca3c' print(re.fin... ...
分类:
其他好文 时间:
2019-06-12 18:08:04
阅读次数:
74
a = '15cm x 11cm x 4cm (5.91in x 4.33in x 1.57in)' s = re.findall('(\d+|\d.\d+|0\.\d+)cm',a) print(s) ...
分类:
其他好文 时间:
2019-06-12 17:54:14
阅读次数:
101
前言: 有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。 本次以博客园为例,先爬取页面源码,通过re正则表达式爬取出url,再进行筛选出http 协议的 url -- 用if做判断。 源码整理 ...
分类:
编程语言 时间:
2019-06-07 22:45:59
阅读次数:
290
>re模块正则表达式(或RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过re模块实现。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。字符匹配:普通字符、元字符1、普通字符类似精确匹配:re.findall()第一个参数是规则,第二个参数是匹配的字符串。2、元字符元字符:.^$*+?{}[]|()\1、.一个点号代表一个任意字符
分类:
编程语言 时间:
2019-06-04 11:14:25
阅读次数:
119
# 1: 匹配单个字符与数字 . 匹配除换行符以外的任意字符 [0123456789] 是字符集合,表示匹配方括号中所包含的任意一个字符 如[Mia] 匹配'M','i','a'中任意一个字符 [a-z] 匹配任意小写字母 [A-Z] 匹配任意大写字母 [0-9] 匹配任意数字,类似[0123456 ...
分类:
其他好文 时间:
2019-06-01 23:27:27
阅读次数:
234
起因: 今天突然想重构一下代理池,并且想扩充一下代理,所以就想着爬点代理IP,然后就有了下面的故事 一上来先进行了一顿操作: 然后看都没看状态码直接xpath取:过了一会黑人问号??????,喵喵喵,为啥是空,点开源代码,啥都有,哦,可能是xpath写的有问题,又进行了微调,还是取不到,突然感觉这个 ...
分类:
其他好文 时间:
2019-05-27 19:07:37
阅读次数:
145