搞Solr这一年 去年6月份毕业到现在已经快一年半了,很庆幸从事了搜索引擎这份工作,虽然谈不上有多深入,但至少已经入门了。在这一年半里,搞了3个月的hbase和mapreduce,搞了一个月的nutch,最后搞了一年的Solr。想当初刚参加项目的时候,大家对hbase、solr一点都不懂,通过慢慢....
分类:
其他好文 时间:
2014-12-09 22:58:44
阅读次数:
230
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。
先来个整体概况:
其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。
先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流...
分类:
其他好文 时间:
2014-12-09 19:46:10
阅读次数:
287
原文 : http://www.cnblogs.com/NatureSex/archive/2011/04/21/2023265.html开发类visual_studio 2005-2010系列----------语言开发工具Visio 2003 / Power Desiger ----------...
分类:
Web程序 时间:
2014-12-09 11:49:56
阅读次数:
232
Solr4.8.0源码分析(23)之SolrCloud的Recovery策略(四)题记:本来计划的SolrCloud的Recovery策略的文章是3篇的,但是没想到Recovery的内容蛮多的,前面三章分别介绍了Recovery的原理和总体流程,PeerSync策略,Replication策略。本章...
分类:
其他好文 时间:
2014-12-09 00:34:43
阅读次数:
220
1. 我要教训你这个下流下贱猪脑袋人渣,缺少教养的社会败类,我替你妈惭愧,生头猪比生你好,你这个无耻的东西2.一千年的时光,我无数次掀起岁月的帷幔,只为和你,在某一个平静如水的日子相遇相识,倾情一生,缱绻一世---散文3. 一个经过性能调优的Lucene应用程序正如一辆维护良好的汽车:它会在多年的运...
分类:
其他好文 时间:
2014-12-08 20:57:08
阅读次数:
176
??
一:
1
搜索引擎的历史
萌芽:Archie、Gopher
Archie:搜索FTP服务器上的文件
Gopher:索引网页
2
起步:Robot(网络机器人)的出现与spider(网络爬虫)
Robot基于网络的,可以执行特定任务的程序
Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自...
分类:
Web程序 时间:
2014-12-08 00:56:28
阅读次数:
301
??
1 Lucene卡发包结构分析
包名
功能
org.apache.lucene.analysis
Analysis提供自带的各种Analyzer
org.apache.lucene.collation
包含collationKey...
??
1 Lucen目录介绍
2
lucene-core-3.6.2.jar是lucene开发核心jar包
contrib 目录存放,包含一些扩展jar包
3
案例
建立第一个Lucene项目:lucene3_day1
(1)需要先将数据转换成为Document对象,每一个数据信息转换成为Field(String
name...
分类:
Web程序 时间:
2014-12-08 00:55:24
阅读次数:
310