正则表达式(regular expression)是一个特殊的字符序列,描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子字符串。 将匹配的子字符串替换或者从某个字符串中取出符合某个条件的子字符串,或者是在指定的文章中抓取特定的字符串等。 Python处理正则表达式的模块是re模块,它 ...
分类:
其他好文 时间:
2019-12-10 01:04:12
阅读次数:
88
正则表达式:描述了一种字符串匹配的模式(pattern) 用途:1、字符串搜索算法(搜索,搜索并替换) 2、鉴定输入合法性 基本语法: 一个正则表达式通常被称为一个pattern,用来描述或匹配一系列符合某个句法规则的字符串,例如 Handel、Händel 和 Haendel 这三个字符串,都可以 ...
分类:
其他好文 时间:
2019-12-09 21:48:33
阅读次数:
116
1.啥是KMP算法? KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一 ...
分类:
编程语言 时间:
2019-12-07 14:45:32
阅读次数:
90
本篇在日常工作中会使用到的一些命令或技巧吧,不断更新中... pip源 临时使用 永久修改 ubuntu源 UTC时间转北京时间 tcpdump抓包 Vim技巧 字符串匹配 复制粘贴缩进错乱问题的解决方案 linux查看文件夹大小 IP正则 使用shell命令从文本提取ip地址: linux 取文件 ...
分类:
其他好文 时间:
2019-12-07 12:55:29
阅读次数:
147
import re """ 使用match方法进行匹配 result = re.match(正则表达式,要匹配的字符串) 如果match匹配到数据的话,就可以使用group方法提取数据 注: 若字符串匹配正则表达式,则match方法返回匹配对象(Match Object), 否则返回None(不是空 ...
分类:
其他好文 时间:
2019-12-06 23:37:53
阅读次数:
107
迭代器(iterator) 实现了__next()__方法的对象 可迭代对象(iterable) 实现了__iter()__方法的对象 对一个可迭代对象调用内置函数iter(),可以获得一个迭代器,对一个迭代器使用next()函数,就可以“延迟产生一个值”(lazily produce next v ...
分类:
编程语言 时间:
2019-12-06 11:36:00
阅读次数:
117
^~ 标识符匹配后面跟-一个字符串。匹配字符串后将停止对后续的正则表达式进行匹配,如location ^~ /images/ , 在匹配了/images/这个字符串后就停止对后续的正则匹配= 精准匹配,如location=/,只会匹配url为/的请求。 ~ 区分大小写的匹配。 ~* 不区分大小写的匹 ...
分类:
其他好文 时间:
2019-12-02 17:09:58
阅读次数:
98
首先我们通过一张图来了解 NLP 所包含的技术知识点,这张图从分析对象和分析内容两个不同的维度来进行表达. 有机器学习相关经验的人都知道,中文自然语言处理的过程和机器学习过程大体一致,但又存在很多细节上的不同点,下面我们就来看看中文自然语言处理的基本过程有哪些呢? 获取语料 语料,即语言材料。语料是 ...
分类:
其他好文 时间:
2019-12-02 16:53:30
阅读次数:
119
1.简述互联网信息抓取的方式。 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。 用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类? (1)基于字符串匹配的分词方法,它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规 ...
分类:
其他好文 时间:
2019-12-01 16:51:40
阅读次数:
265
概念明确:被匹配串、匹配串。如从cbabce找ab,前者和后者分别称为被匹配串、匹配串。 最容易想到的方法:从首字母开始,逐个比较下去。一旦发现有不同的字符就停止并将这个匹配串后移一位,然后从头开始进行下一次比较。这样,就需要将字串中的所有字符一一比较。 KMP算法 Boyer-Moore算法 基于 ...
分类:
编程语言 时间:
2019-11-26 13:35:29
阅读次数:
76