package com.lin.util;
import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.docu...
分类:
Web程序 时间:
2014-12-22 16:14:01
阅读次数:
128
package com.fox.facet;/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file d....
分类:
Web程序 时间:
2014-12-22 12:38:54
阅读次数:
479
package com.fox.facet;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import o...
分类:
Web程序 时间:
2014-12-22 12:33:11
阅读次数:
154
package com.fox.facet;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.lucene.analysis.core.WhitespaceAna...
分类:
Web程序 时间:
2014-12-22 12:31:21
阅读次数:
311
hadoop 起源涉及到了:lucene,solr,nutch,hadoop@auther ayy@date 2014/12/211、lucene、nutch、solr Lucene是由Doug Cutting创建的一个基于java的全文搜索工具包,它是Apache下一个很有名的项目。主要功能有:....
分类:
其他好文 时间:
2014-12-21 22:06:05
阅读次数:
272
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:
其他好文 时间:
2014-12-21 19:29:09
阅读次数:
193
接下来我会写一个lucene的实例。实际上在搜索引擎上随便搜索下都能找到这样的东西。不过还是写一下吧,这也是我学习的经历。 package com.zhyea.doggie; import java.io.BufferedReader;
import java.io.File;
import jav...
分类:
Web程序 时间:
2014-12-19 18:53:08
阅读次数:
169
一、lucene建立索引过程:1、解析器用来解析物理文件,从中提取出所需的文本,其作用于物理文件;2、分析器用来分析文本内容(文字),其作用于解析器处理物理文件之后生成的文本;Lucene没有自己开发语言分析程序,JavaCC来生成分析器;分析器(analyzer)主要包含分词器和过滤器。分析器使用...
分类:
Web程序 时间:
2014-12-19 17:16:02
阅读次数:
198
Doug Cutting Lucene(索引引擎)---Nutch(搜索Data抓取)---Hadoop 1997:Lucene 2003:GFS 2004:NDFS\MapReduce\Nutch 2006: (Yahoo! Facebook NewYorkTimes) Hadoop 2008: ...
分类:
其他好文 时间:
2014-12-19 15:43:43
阅读次数:
149
需要准备的内容: jdk 1.7 eclipse Kepler lucene 4.10.2 luke 4.10.2 以及一些txt文档 其他的不需多说,只简要介绍下luke。 以下内容来自百度百科: Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索...
分类:
Web程序 时间:
2014-12-19 15:33:06
阅读次数:
188