相似匹配在我们使用网页搜索时,会注意到每一个结果都包含一个“相似页面”链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr使用MoreLikeThisComponent(MLT)和MoreLikeThisHandler实现了一样的功能。如上所述,MLT是与标准SolrRequestHandler集..
分类:
其他好文 时间:
2015-05-29 18:24:13
阅读次数:
122
相似匹配
在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能。如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandl...
分类:
其他好文 时间:
2015-05-29 18:13:39
阅读次数:
103
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据,使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第...
分类:
其他好文 时间:
2015-05-29 15:41:00
阅读次数:
132
Solr采用Lucene搜索库为核心,提供全文索引和搜索开源企业平台,提供REST的HTTP/XML和JSON的API,如果你是Solr新手,那么就和我一起来入门吧!本教程以solr4.8作为测试环境,jdk版本需要1.7及以上版本。准备本文假设你对Java有初中级以上水平,因此不再介绍Java相关...
分类:
其他好文 时间:
2015-05-29 15:15:17
阅读次数:
117
刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。 几年过去了,Lucene和Solr...
分类:
其他好文 时间:
2015-05-29 11:40:57
阅读次数:
215
首先,不知道大家在前面的例子中没有试着搜索文本串,就是在第二节,我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词,是不是发现搜不到?这就是因为我们没有配置Analyzer,因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。通过前面这段引文,我...
分类:
其他好文 时间:
2015-05-29 09:53:00
阅读次数:
229
本章关注solrconfig.xmlSolr为web应用,有一个系统变量solr.solr.home指明Solr目录,启动Solr核后,有一个/server下有一个应用目录,该目录下有一个core.properties,一个conf文件夹和一个data文件夹。core.properties用于配置c...
分类:
其他好文 时间:
2015-05-28 23:00:33
阅读次数:
173
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1配置一个handler这个handler首先要在solrConfig.xml中配置,如下所示:
<requestHandler
name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandle..
分类:
其他好文 时间:
2015-05-28 18:21:28
阅读次数:
209
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler
这个handler首先要在solrConfig.xml中配置,如下所示:
tika-data-config.xml
...
分类:
其他好文 时间:
2015-05-28 18:13:02
阅读次数:
749
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1配置一个handler这个handler首先要在solrConfig.xml中配置,如下所示: tika-data-config.xml ...
分类:
其他好文 时间:
2015-05-28 17:57:02
阅读次数:
213