文本检索 grep: 功能:根据模式搜索文本,并将符合模式的文本行显示出来(默认只支持基本正则表达式) 模式:有文本字符和正则表达式显示出来 用法: greep [options] "pattern" file 选项 -i : 忽略大小写 --colour:高亮 -v:显示没有被模式匹配的行 -o: ...
分类:
其他好文 时间:
2018-12-11 21:40:56
阅读次数:
218
正则表达式: 正则表达式(regular expression)是一个描述字符模式的对象。使用正则表达式可以进行强大的模式匹配和文本检索与替换功能 1、RegExp对象包含两个常用方法:test()和exec(),功能基本相似,用于测试字符串匹配。· 1)test()方法在字符串中查找是否存在指定的 ...
分类:
其他好文 时间:
2018-11-03 23:07:54
阅读次数:
183
正则表达式: 正则表达式(regular expression)是一个描述字符模式的对象。使用正则表达式可以进行强大的模式匹配和文本检索与替换功能 1、RegExp对象包含两个常用方法:test()和exec(),功能基本相似,用于测试字符串匹配。· 1)test()方法在字符串中查找是否存在指定的 ...
分类:
其他好文 时间:
2018-10-29 00:08:23
阅读次数:
210
TF IDF RootSift VLAD TF IDF TF IDF是一种用于信息检索的常用加权技术,在文本检索中,用以评估词语对于一个文件数据库中的其中一份文件的重要程度。词语的重要性随着它在文件中出现的频率成正比增加,但同时会随着它在文件数据库中出现的频率成反比下降。像‘的’,‘我们’,‘地’等 ...
分类:
其他好文 时间:
2018-08-13 22:05:07
阅读次数:
232
对文本分词后,接下来需要对分词后的每个term计算一个权重,重要的term应该给与更高的权重。举例来说,“什么产品对减肥帮助最大?”的term weighting结果可能是: “什么 0.1,产品 0.5,对 0.1,减肥 0.8,帮助 0.3,最大 0.2”。Term weighting在文本检索 ...
分类:
其他好文 时间:
2018-05-18 15:43:36
阅读次数:
137
Solr集群: Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库; Solr是以Lucene为基础实现的文本检索应用服务; SolrCloud是Solr4.0版本开发的,基于Solr和Zookeeper的分布式搜索方案,主要思想是使用Zookeeper作为集群的配置信息中心。 So ...
分类:
其他好文 时间:
2018-04-13 20:36:29
阅读次数:
179
字符串查找和匹配是一个很常用的功能,比如在爬虫,邮件过滤,文本检索和处理方面经常用到。相对与C,python在字符串的查找方面有很多内置的库可以供我们使用,省去了很多代码工作量。但是我们还是需要了解一些常用的字符串查找算法的实现原理。 首先来看python内置的查找方法。查找方法有find,inde ...
分类:
编程语言 时间:
2018-01-30 16:36:41
阅读次数:
227
正则的概念n 正则表达式(regular expression)是一个描述字符规则的对象。ECMAScript 的RegExp 类(构造函数)表示正则表达式,而String 和 RegExp 都定义了使用正则表达式进行强大的模式匹配和文本检索与替换的函数。n 正则表达式主要用来验证客户端的输入数据。 用户填写完表单单击提交按钮之后, 表单就会被发送到服务器
分类:
其他好文 时间:
2017-12-22 18:31:01
阅读次数:
130
SQL Server 的全文搜索(Full-Text Search)是基于分词的文本检索功能,依赖于全文索引。全文索引不同于传统的平衡树(B-Tree)索引和列存储索引,它是由数据表构成的,称作倒转索引(Invert Index),存储分词和行的唯一键的映射关系。倒转索引是在创建全文索引或更新全文索 ...
分类:
数据库 时间:
2017-12-15 19:35:39
阅读次数:
233
参考资料 《算法(java)》 — — Robert Sedgewick, Kevin Wayne 《数据结构》 — — 严蔚敏 参考资料 《算法(java)》 — — Robert Sedgewick, Kevin Wayne 《数据结构》 — — 严蔚敏 这篇文章主要介绍实现字典的两种方式 有序 ...
分类:
编程语言 时间:
2017-12-14 15:49:24
阅读次数:
295