一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
文本特征向量 经典的向量空间模型(VSM: Vector Space
Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...
分类:
其他好文 时间:
2014-06-07 06:02:47
阅读次数:
248
议题:布隆过滤器(Bloom
Filter)分析:BF由一个很长的二进制向量和一系列随机映射的函数组成,通过多个Hash函数将一个元素映射到一个Bit
Array中的多个点,查询的时候仅当所有的映射点都为1才能判断元素存在于集合内;BF用于检索一个元素是否在一个集合中,记忆集合求交集;优点是空间 和...
分类:
其他好文 时间:
2014-05-29 00:18:07
阅读次数:
324
我会在接下来的注册过程中逐步完善该流程.为公司取一个名字所需要文件:
> 填写已准备好的公司名称,由工商局上网(工商局内部网)检索是否有重名,如果没有重名,就可以使用这个名称,就会核发一张"企业(字号)名称预先核准通知书"
分类:
其他好文 时间:
2014-05-28 14:28:33
阅读次数:
248
问题:ERRORorg.springframework.web.context.ContextLoader:(ContextLoader.java:215)-Contextinitializationfailedorg.springframework.beans.factory.BeanCreati...
分类:
其他好文 时间:
2014-05-26 20:17:33
阅读次数:
205
出题:TRIE树 (Trie Tree or Prefix
Tree);分析:又称字典树或者前缀树,一种用于快速检索的多叉树结构;英文字母的Trie树为26叉树,数字的Trie树为10叉树;All the
descendants of a node have a common prefix of t...
分类:
其他好文 时间:
2014-05-26 18:31:06
阅读次数:
297
SQL-3标准中提供了三种对检索结果进行集合运算的命令:并集UNION;交集INTERSECT;差集EXCEPT(在Oracle中叫做
MINUS)。在有些数据库中对此的支持不够充分,如MySql中只有UNION,没有其他两种。实际上这些运算都可以通过普通的SQL来实现,虽然有时有些繁琐。假设有两个...
分类:
数据库 时间:
2014-05-26 18:07:14
阅读次数:
457
Lucene.net是一个搜索引擎的框架,它自身并不能实现搜索,需要我们自己在其中实现索引的建立,索引的查找。所有这些都是根据它自身提供的API来实现。Lucene.net本身是基于java的,但是经过翻译成.ne版本的,可以在ASP.net中使用这个来实现站内搜索。
要实现基于汉语的搜索引擎,首先的要实现汉语的分词。目前网上大部分都是利用已经有的盘古分词来实现的分词系统,但是...
分类:
Web程序 时间:
2014-05-25 21:40:26
阅读次数:
512
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式。但是非常...
分类:
编程语言 时间:
2014-05-25 21:26:01
阅读次数:
386
分词系统建立完毕,这是基础也是核心,后面我们建立索引要用到分词系统。
下面依次讲解索引的建立,索引的查找。
分词系统建立完毕,这是基础也是核心,后面我们建立索引要用到分词系统。下面依次讲解索引的建立,索引的查找。
索引的建立采用的是倒排序,原理就是遍历所有的文本,对其进行分词,然后把分的词汇建立索引表。形式类似如下:
词汇 出现词汇的篇章1,篇章2,...
分类:
Web程序 时间:
2014-05-25 20:58:39
阅读次数:
413