1、聚焦爬虫 代理浏览器上网 网页的特点 网页都有自己唯一的url 网页内容都是HTML结构 使用的都是HTTP,HTTPS协议 爬取步骤: 给一个url 写程序,模拟浏览器方位url 解析内容 环境: Windows环境、Linux环境 python3.6 64位 编辑工具,vscode,subl ...
分类:
其他好文 时间:
2020-06-27 20:23:23
阅读次数:
57
正则表达式:字符串模式,(判断字符串是否符合某一标准) import re 创建模式方法 -- search 创建模式对象pat,在使用对象进行search比对,返回值保存在m中 pat = re.compile("AA") ## 此处的AA是正则表达式,用来取验证其他字符串是否符合AA m = p ...
分类:
其他好文 时间:
2020-06-27 20:10:25
阅读次数:
71
##初识正则表达式 能够按照某种模式匹配一系列具有相似特征的字符串。 比如说:垃圾邮箱拦截、邮件分类、验证手机号码等等功能。 ###正则表达式中的符号 *: 作用是代表前面的字符匹配0-n次。 ?:作用是代表前面的字符出现0次或1次,即前面的字符可有可无。 +:作用是代表前面的字符匹配1-n次,至少 ...
分类:
编程语言 时间:
2020-06-27 20:08:03
阅读次数:
78
RegExp对象:(正则表达式) 使用正则表达式可以快速的筛选和查找到符合要求的字符串子串,效率高,功能强大,而且可以作为参数传递给String对象的一些方法。 首先来了解如何创建正则表达式 创建方法: 1.var myRegExp = new RegExp("..."); 2.var myRegE ...
分类:
其他好文 时间:
2020-06-27 13:22:55
阅读次数:
88
import reprint(" 匹配单个字符 ")r'''. 匹配除换行符以外的任意字符[0123456789] []是字符集和,表示匹配方括号中所包含的任意一个字符[abcd] 匹配'a', 'b', 'c', 'd'中任意一个字符[a-z] 匹配任意小写字母[A-Z] 匹配任意大写字母[0-9 ...
分类:
其他好文 时间:
2020-06-27 09:53:31
阅读次数:
65
今天中午看了一集动漫《进击的巨人》,看完后发现这些视频的名称有点乱,于是编程来批量重命名。 重命名之前的各名称格式为——飞极速【www.feijisu.com】[16][720P][CHS-JAP] AVC.mp4,可以看到这个中间是有集数的,因此可以使用正则表达式提取,导入re模块。 然后由于要修 ...
分类:
编程语言 时间:
2020-06-26 16:43:29
阅读次数:
77
简介/动机 基本介绍 正则表达式regex: 是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。 解决的问题: 正则表达式的出现使得我们可以通过编程使计算机具有在文本中检索某种模式的能力。 实际应用举例 通过计算机程序 ...
分类:
其他好文 时间:
2020-06-26 14:16:43
阅读次数:
56
将正则表达式通过start->状态1->终止状态构造,然后进行正则表达式拆分,每两个状态之间使用进行状态划分 下面是例子 ...
分类:
其他好文 时间:
2020-06-26 12:35:24
阅读次数:
57
正则表达式(Regular Expressions),又被称为regex、regexp 或 RE,是一种十分简便、灵活的文本处理工具。它可以用来精确地找出某文本中匹配某种指定规则的内容。从C++11开始也将正则表达式纳入了新标准的一部分 。 本篇博客不涉及正则表达式语法的基本内容,如果你对正则表达式 ...
分类:
编程语言 时间:
2020-06-25 23:47:03
阅读次数:
116
原数据: 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSP ...
分类:
其他好文 时间:
2020-06-25 23:42:05
阅读次数:
72