0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具
1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。...
分类:
其他好文 时间:
2015-02-23 13:11:29
阅读次数:
156
接上篇,Solr的准备工作完毕后,本节主要介绍Solr的安装,事实上Solr不须要安装.直接下载就能够了 1.Solr配置 下载地址 :http://lucene.apache.org/solr/ 1.在D盘下创建文件夹 D:\Server\Solr 2.解压solr-4.8.0文件,我这里下载的....
分类:
其他好文 时间:
2015-02-19 11:50:15
阅读次数:
154
一、SolrJ基础1、相关资料API:http://lucene.apache.org/solr/4_9_0/solr-solrj/apache_solr_ref_guide_4.9.pdf:Client APIs---Using SolrJhttp://wiki.apache.org/solr/S...
分类:
其他好文 时间:
2015-02-17 14:04:27
阅读次数:
157
当网站数据量达到一定规模时,我们会发现搜索的速度越来越慢。在这种情况下我们可以找出消耗性能的语句对数据库、代码做必要的优化,但是这不是万能的,当我们发现网页访问的速度因为数据库本身的性能造成瓶颈的时候,就要考虑使用全文索引技术了。 做 过.net 的同学应该都听说过Lucene.net,而Solr是...
分类:
其他好文 时间:
2015-02-13 16:15:01
阅读次数:
144
logstash + elasticsearch + Kibana+Redis+Syslog-ng ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使...
分类:
其他好文 时间:
2015-02-13 08:07:25
阅读次数:
2613
全文检索的概念1.从大量的信息中快速、准确的查找要的信息2.收索的内容是文本信息3.不是根据语句的意思进行处理的(不处理语义)4.全面、快速、准确是衡量全文检索系统的关键指标。5.搜索时英文不区分大小写,结果列表有相关度排序。全文检索与数据库搜索的区别1.数据库搜索Eg: select * from...
分类:
Web程序 时间:
2015-02-12 19:58:16
阅读次数:
294
原文:http://blog.csdn.net/chaofanwei/article/details/39476535全文索引-lucene,solr,nutch,hadoop之lucene全文索引-lucene,solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,so...
分类:
其他好文 时间:
2015-02-12 01:53:48
阅读次数:
223
lucene使用与优化1lucene简介 1.1什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2lucene能做什么 要回答这个问题,先要了解luc....
分类:
Web程序 时间:
2015-02-11 20:31:06
阅读次数:
212
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。
项目地址:http://www.oschina.net/p/ikanalyzer/
下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF
示例代码:
{CSDN:CODE:602681}
该代码的工程结构:下图...
分类:
其他好文 时间:
2015-02-11 18:44:37
阅读次数:
193
建立索引过程用户提交数据=》solr建立索引=》调用lucene包建立索引官方建立索引和查询索引的例子如下:http://lucene.apache.org/core/4_10_3/demo/overview-summary.html#About_the_codehttp://lucene.apac...
分类:
Web程序 时间:
2015-02-06 16:28:31
阅读次数:
145