原文来自于:http://www.csdn.net/article/2014-09-01/2821485-how-to-perform-fuzzy-matching-with-mongo-connector摘要:短短两年,Mongo Connector取得了突破性的进展,用户已经可以通过它完成连接器...
分类:
其他好文 时间:
2014-09-03 16:20:06
阅读次数:
210
先说一说问题,不知道大家有没有这样的经验,反正我是经常碰到。 举例1,某些网站每隔几天就发邮件给我,每次发的邮件内容都是一些我根本不感兴趣的东西,我不甚其扰,对其深恶痛绝。 举例2,添加具有某功能的一个msn机器人,每天都有几次突然蹦出一个窗口,推荐一堆我根本不想知道的内容,烦不烦啊, 我只好将你阻...
分类:
Web程序 时间:
2014-09-03 00:16:15
阅读次数:
477
本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任何技术的发展壮大都不...
分类:
其他好文 时间:
2014-09-02 18:16:05
阅读次数:
331
1. 排序1.1. Sort类public Sort()public Sort(String field)public Sort(String field,Boolean reverse) //默认为false,降序排序public Sort(String[] fields)public Sort(...
分类:
其他好文 时间:
2014-09-02 17:09:55
阅读次数:
433
public class TMahout03 { public static void main(String[] args) throws IOException, TasteException { //-准确率和召回率评估的配置与运行-// RandomU...
分类:
其他好文 时间:
2014-09-02 13:53:24
阅读次数:
257
---------------------------------------博文作者:迦壹博客名称:Ubuntu14.04用apt安装CDH5.1.2[Apache Hadoop 2.3.0]博客地址:http://idoall.org/home.php?mod=space&uid=1&do=bl...
分类:
其他好文 时间:
2014-09-02 01:35:04
阅读次数:
458
一、字段配置(schema) ? schema.xml位于solr/conf/目录下,类似于数据表配置文件, 定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。 ? 1、先来看下type节点,这里面定义FieldTy...
分类:
其他好文 时间:
2014-09-01 17:59:53
阅读次数:
367
异常介绍SetOnceA convenient class which offers asemi-immutable objectwrapper implementation which allows one to set the value of an object exactly once, a...
分类:
其他好文 时间:
2014-08-31 14:27:51
阅读次数:
172
我们来看最复杂的部分,就是Term Dictionary和Term Index文件,Term Dictionary文件的后缀名为tim,Term Index文件的后缀名是tip,格式如图所示。Term Dictionary文件首先是一个Header,接下来是PostingsHeader,这两个的格式...
分类:
其他好文 时间:
2014-08-29 22:31:38
阅读次数:
378
1. 定长编码最容易想到的方式就是常用的普通二进制编码,每个数值占用的长度相同,都占用最大的数值所占用的位数,如图所示。这里有一个文档ID列表,254,507,756,1007,如果按照二进制定长编码,需要按照最大值1007所占用的位数10位进行编码,每个数字都占用10位。和词典的格式设计中顺序列表...
分类:
其他好文 时间:
2014-08-29 12:51:27
阅读次数:
298