一.数据概论我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。非结构化数据又一种叫法叫全文数据。当然有的地方还会提到第三种,半..
分类:
Web程序 时间:
2015-03-13 14:38:59
阅读次数:
210
一、对Office中的办公软件要非常熟悉,利用每一次产品演示,工作汇报或者知识总结的机会。二、编程领域1、J2SE需要不断加深学习,可以利用阅读一些编程的经典书籍2、对J2EE深入理解:设计模式、重构、SOA等3、对开源技术要不断学习,学习其设计的思路及编码的风格,例如SSH等;再如:lucene,...
分类:
其他好文 时间:
2015-03-12 18:41:59
阅读次数:
185
Solr 使用了 Lucene 的反响索引为【快速搜索】提供动力。虽然我们不会深入介绍太多 Luncene 内部的数据结构,但是了解反向索引的【基本结构】还是非常有必要的。
回想一下前面用过的搜索书籍的例子,我们可以在下表中看到索引是如何将关键字映射到文档的:
原始文档(传统的数据库)
文档编号
内容字段
1
A Fun Guide to Cooking...
分类:
其他好文 时间:
2015-03-11 12:54:48
阅读次数:
249
本学期学习了做一个自己的Web搜索引擎,其中使用到了Lucene包,发现这个开源包简单易用,所以记录一下。 首先是Lucene的索引结构:从左往右看,是读索引的过程,从右往左看,则是构建索引的过程。其中,所有中包含文档(Document)每篇文档中又包含(Field),field为自己设置的域...
分类:
Web程序 时间:
2015-03-09 23:52:32
阅读次数:
279
参考: hankcshttp://www.hankcs.com/program/java/lucene-combat-2nd-edition-book-with-code-compiled-under-the-idea.html最基础的Ant编译:点击右边的加号载入lia2e下的build.xml脚...
分类:
Web程序 时间:
2015-03-09 16:02:49
阅读次数:
139
Lucene.Net核心类简介
先运行写好的索引的代码,再向下讲解各个类的作用,不用背代码。
(*)Directory表示索引文件(Lucene.net用来保存用户扔过来的数据的地方)保存的地方,是抽象类,两个子类FSDirectory(文件中)、RAMDirectory (内存中)。使用的时候别和IO里的Directory弄混了。
创建FSDirectory的方法,FSDirectory...
分类:
Web程序 时间:
2015-03-08 00:13:29
阅读次数:
183
在文章开始之前,我们还是简单来回顾下Pig的的前尘往事:1,Pig是什么?Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQ...
分类:
Web程序 时间:
2015-03-07 22:34:02
阅读次数:
192
lucene学习http://www.360doc.com/userhome/3387#《Lucene实战(第2版)》 配书代码在IDEA下的编译方法http://www.hankcs.com/program/java/lucene-combat-2nd-edition-book-with-code...
分类:
Web程序 时间:
2015-03-07 21:16:11
阅读次数:
130