本文是参考logstash官方文档实践的笔记,搭建环境和所需组件如下:Redhat 5.7 64bit / CentOS 5.xJDK 1.6.0_45logstash 1.3.2 (内带kibana)elasticsearch 0.90.10redis 2.8.4搭建的集中式日志分析平台流程如下:...
分类:
其他好文 时间:
2014-07-29 21:48:12
阅读次数:
527
本文配置环境:solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...
分类:
其他好文 时间:
2014-07-23 20:20:15
阅读次数:
288
原文来自于:http://blog.csdn.net/whxaing2011/article/details/18237733本文主要介绍如下内容: 1、ElasticSearch的安装(Windows 和 Linux) 2、ElasticSearch插件安装 3、ElasticSearch源码集成...
分类:
其他好文 时间:
2014-07-23 15:10:16
阅读次数:
300
原文来自于:http://www.oschina.net/translate/elasticsearch-getting-started?cmp教程样例我们将要部署一个非常简单的应用--在一个部门里的雇员--这样我们可以把注意力放在功能而不是氧立得复杂性上。总而言之,这篇博文是为了帮助人们开始Ela...
分类:
其他好文 时间:
2014-07-23 15:07:36
阅读次数:
213
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(...
分类:
其他好文 时间:
2014-07-23 12:20:06
阅读次数:
263
基本情况就是,媒体、试题、分类,媒体可能有多个试题,一个试题可能有多个分类,分类为三级分类加上一个综合属性。通过试题名称、分类等搜索查询媒体。 现在的问题为,搜索结果不精确,部分搜索无结果,ES的数据...
分类:
Web程序 时间:
2014-07-22 09:06:06
阅读次数:
388
Lesson 11 excuse [ik'skju:z] v.原谅2 me [mi:, mi] pron.我(宾格)3 yes [jes] ad.是的4 is [iz, s, z, ?z] v.be动词现在时第三人称单数5 this [ðis] pron.这6 your [j?:, j?:, j?r...
分类:
其他好文 时间:
2014-07-21 14:29:27
阅读次数:
541
日志分析界面:logstash(分析端)+elashsearch(存储端)+kibana(展示端)工具:进行数据整理statsd1、diamond-->statsd-->graphite2、实时收集数据的做法:logstash-->statsd-->graphite日志收集可视化(LEK):logstash+elasticsearch+kibanalegend:logstash--》..
分类:
其他好文 时间:
2014-07-20 23:38:43
阅读次数:
696
/*
* 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落。
* 这个类适合读取每行数量较少的文本,比如分好段落的文本,一个段落一行存储。
* 读取一行,步长为1,返回词组。不会跨段落生成词组。
* 两种模式:
* 1 读到文件末尾,结束
* 2 读到文件末尾,从头再来
*/...
分类:
编程语言 时间:
2014-07-19 08:07:56
阅读次数:
324
/*
* 文本格式:已分词的中文文本,空格分割。有若干行,每行为一个段落。
* 功能:遍历文档,逐个返回词语。
* 两种模式:
* 1 到文档末尾后,结束
* 2 到文档末尾后,从头再读。
/...
分类:
编程语言 时间:
2014-07-19 02:16:37
阅读次数:
238