搜索关键字：lucene 检索，搜索到9316个结果！码迷,mamicode.com！

网络挖掘技术——text mining

一、中文分词：分词就是利用计算机识别出文本中词汇的过程。 1.典型应用：汉字处理：拼音输入法、手写识别、简繁转换；信息检索：Google 、Baidu ；内容分析：机器翻译、广告推荐、内容监控；语音处理：语音识别、语音合成。 2.分词难点：歧义、新词等。 3.分词技术：机械分词（查词典FMM/...

分类：其他好文时间：2014-06-07 06:04:35 阅读次数：511

网络挖掘技术——微博文本特征提取

文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...

分类：其他好文时间：2014-06-07 06:02:47 阅读次数：248

笔试算法题（43）：布隆过滤器（Bloom Filter）

议题：布隆过滤器（Bloom Filter）分析：BF由一个很长的二进制向量和一系列随机映射的函数组成，通过多个Hash函数将一个元素映射到一个Bit Array中的多个点，查询的时候仅当所有的映射点都为1才能判断元素存在于集合内；BF用于检索一个元素是否在一个集合中，记忆集合求交集；优点是空间和...

分类：其他好文时间：2014-05-29 00:18:07 阅读次数：324

公司注册流程

我会在接下来的注册过程中逐步完善该流程.为公司取一个名字所需要文件: > 填写已准备好的公司名称，由工商局上网（工商局内部网）检索是否有重名，如果没有重名，就可以使用这个名称，就会核发一张"企业（字号）名称预先核准通知书"

分类：其他好文时间：2014-05-28 14:28:33 阅读次数：248

项目遇见问题解决记录

问题：ERRORorg.springframework.web.context.ContextLoader:(ContextLoader.java:215)-Contextinitializationfailedorg.springframework.beans.factory.BeanCreati...

分类：其他好文时间：2014-05-26 20:17:33 阅读次数：205

笔试算法题（39）：Trie树（Trie Tree or Prefix Tree）

出题：TRIE树（Trie Tree or Prefix Tree）；分析：又称字典树或者前缀树，一种用于快速检索的多叉树结构；英文字母的Trie树为26叉树，数字的Trie树为10叉树；All the descendants of a node have a common prefix of t...

分类：其他好文时间：2014-05-26 18:31:06 阅读次数：297

SQL集合运算差集并集交

SQL-3标准中提供了三种对检索结果进行集合运算的命令：并集UNION；交集INTERSECT；差集EXCEPT（在Oracle中叫做 MINUS）。在有些数据库中对此的支持不够充分，如MySql中只有UNION，没有其他两种。实际上这些运算都可以通过普通的SQL来实现，虽然有时有些繁琐。假设有两个...

分类：数据库时间：2014-05-26 18:07:14 阅读次数：457

基于lucene.net 和ICTCLAS2014的站内搜索的实现1

Lucene.net是一个搜索引擎的框架，它自身并不能实现搜索，需要我们自己在其中实现索引的建立，索引的查找。所有这些都是根据它自身提供的API来实现。Lucene.net本身是基于java的，但是经过翻译成.ne版本的，可以在ASP.net中使用这个来实现站内搜索。要实现基于汉语的搜索引擎，首先的要实现汉语的分词。目前网上大部分都是利用已经有的盘古分词来实现的分词系统，但是...

分类：Web程序时间：2014-05-25 21:40:26 阅读次数：512

Java实现敏感词过滤

敏感词、文字过滤是一个网站必不可少的功能，如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友（马上毕业，接触编程不久）要我帮他看一个文字过滤的东西，它说检索效率非常慢。我把它程序拿过来一看，整个过程如下：读取敏感词库、如果HashSet集合中，获取页面上传文字，然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个，更高级点就是正则表达式。但是非常...

分类：编程语言时间：2014-05-25 21:26:01 阅读次数：386

基于lucene.net 和ICTCLAS2014的站内搜索的实现2

分词系统建立完毕，这是基础也是核心，后面我们建立索引要用到分词系统。下面依次讲解索引的建立，索引的查找。分词系统建立完毕，这是基础也是核心，后面我们建立索引要用到分词系统。下面依次讲解索引的建立，索引的查找。索引的建立采用的是倒排序，原理就是遍历所有的文本，对其进行分词，然后把分的词汇建立索引表。形式类似如下：词汇出现词汇的篇章1，篇章2，...

分类：Web程序时间：2014-05-25 20:58:39 阅读次数：413

共9316条上一页 1 ... 914 915 916 917 918 ... 932 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)