码迷,mamicode.com
首页 > 其他好文 > 详细

Lucene 学习入门

时间:2014-07-22 08:31:36      阅读:192      评论:0      收藏:0      [点我收藏+]

标签:Lucene   os   文件   问题   c   html   

Lucene 4.9

基础准备

  • 了解常用分词器,选择合适分词器
  • 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理
  • TextField内容不能保存过长,最大长度是32766个字节

StringField, TextField 的区别,其他

  • StringField 不进行分词处理,保存
  • TextField 进行分词处理,默认不保存,可以选择保存,最大长度是 32766字节
  • 其他省略…

Demo参考:

  • org.apache.lucene.demo.IndexFiles
  • org.apache.lucene.demo.SearchFiles

基本参考两个类基本够用

常见问题,调试技巧(查询不是想要结果)

  • 查看索引文档的分词结果,编码和分词是否是否正确
  • 查看关键字搜索的分词结果
  • 读取文件内容编码处理必须正确,乱码索引不到想要结果

优化

  • 优化索引内容,加快索引效率和查询效率,提高命中率
  • 特殊文档特殊处理。 例如: html 需要过滤html标签和对标题、关键字、描述内容过的特殊处理,word文档需要用工具处理等。

未完待续,玩命的完善中.

Lucene 学习入门,布布扣,bubuko.com

Lucene 学习入门

标签:Lucene   os   文件   问题   c   html   

原文地址:http://my.oschina.net/gofan/blog/290552

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!