SpringMVC+Mybatis+SpringSecurity(权限控制到方法按钮)+Rest(服务)+Webservice(服务)+Quartz(定时调度)+Lucene(搜索引擎)+HTML5bootstrap+Maven项目构建绝对开源平台项目Mave构建,模拟大型互联网架构,做到高并发,大数据处理,整个项目使用定制化服务思想,提供原子化、..
分类:
编程语言 时间:
2015-04-11 06:39:25
阅读次数:
123
Lucene是一个高效的,基于Java的全文检索库。文档地址:http://lucene.apache.org/core/5_0_0/core/overview-summary.html我们从下往上看,很容易发现索引(index)是lucene的核心。那lucene的索引(index)是怎么样的呢?...
分类:
Web程序 时间:
2015-04-10 17:40:18
阅读次数:
154
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
Web程序 时间:
2015-04-08 17:58:42
阅读次数:
134
要查找的的文章内容文本(目标:快速检索出需要的内容),此搜索技术类似一本汉语词典索引页设计原理 ?????? 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once...
分类:
Web程序 时间:
2015-04-08 11:18:40
阅读次数:
136
--------------------------------------------------------
lucene的分词_分词器的原理讲解
--------------------------------------------------------
几个默认分词
SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer(根据空格分...
分类:
Web程序 时间:
2015-04-08 11:01:44
阅读次数:
131
----------------------------------------------------------
lucene的分词_中文分词介绍
----------------------------------------------------------
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库
1.导入包(有两个包:1.带dic的,2...
分类:
Web程序 时间:
2015-04-08 10:59:40
阅读次数:
191
本文介绍了如何通过CrawlBase来实现纵横小说阅读页信息的采集,加上之前的三篇博客就完成了对纵横小说的信息采集,之后会给出具体的main方法,来实现整个流程的运行~...
分类:
Web程序 时间:
2015-04-08 10:56:51
阅读次数:
157
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人 ? 下面是Nutch的发展历程: 2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Orego...
分类:
其他好文 时间:
2015-04-08 07:59:05
阅读次数:
126
爬虫&搜索 1、《开发自己的搜索引擎—Lucene+Heritrix(第2版)》??????? (Begin:2015/4/7? End:) Web技术 大数据 ? ? ? ? PS: 林语堂在《读书的艺术》中说: ????????? 那个没有养成读书...
分类:
其他好文 时间:
2015-04-07 20:21:47
阅读次数:
201
前言首先,关于Lucene.Net 的文章已经很多了。我这次决定写出来只是为了练练手,虽然在别人看来没什么用,但是自己确实是手动实践了一把。我个人觉得还是有意义的。爱折腾、敢于实践、才能有所收获,才能发现问题。不要怕自己写的东西有问题,有问题才更好呢,可以让更多的人看见,提意见的当然是好,鄙视的……...
分类:
Web程序 时间:
2015-04-07 19:02:52
阅读次数:
142