码迷,mamicode.com
首页 >  
搜索关键字:elasticsearch ik 中文分词    ( 5835个结果
安装logstash+kibana+elasticsearch+redis搭建集中式日志分析平台
本文是参考logstash官方文档实践的笔记,搭建环境和所需组件如下:Redhat 5.7 64bit / CentOS 5.xJDK 1.6.0_45logstash 1.3.2 (内带kibana)elasticsearch 0.90.10redis 2.8.4搭建的集中式日志分析平台流程如下:...
分类:其他好文   时间:2014-07-29 21:48:12    阅读次数:527
solr4.x配置IK2012FF智能分词+同义词配置
本文配置环境:solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...
分类:其他好文   时间:2014-07-23 20:20:15    阅读次数:288
转:ElasticSearch的安装和相关插件的安装
原文来自于:http://blog.csdn.net/whxaing2011/article/details/18237733本文主要介绍如下内容: 1、ElasticSearch的安装(Windows 和 Linux) 2、ElasticSearch插件安装 3、ElasticSearch源码集成...
分类:其他好文   时间:2014-07-23 15:10:16    阅读次数:300
转:ElasticSearch 简单入门
原文来自于:http://www.oschina.net/translate/elasticsearch-getting-started?cmp教程样例我们将要部署一个非常简单的应用--在一个部门里的雇员--这样我们可以把注意力放在功能而不是氧立得复杂性上。总而言之,这篇博文是为了帮助人们开始Ela...
分类:其他好文   时间:2014-07-23 15:07:36    阅读次数:213
中文分词技术(中文分词原理)
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(...
分类:其他好文   时间:2014-07-23 12:20:06    阅读次数:263
网站基于ElasticSearch搜索的优化笔记 PHP
基本情况就是,媒体、试题、分类,媒体可能有多个试题,一个试题可能有多个分类,分类为三级分类加上一个综合属性。通过试题名称、分类等搜索查询媒体。 现在的问题为,搜索结果不精确,部分搜索无结果,ES的数据...
分类:Web程序   时间:2014-07-22 09:06:06    阅读次数:388
新概念英语第一册单词
Lesson 11 excuse [ik'skju:z] v.原谅2 me [mi:, mi] pron.我(宾格)3 yes [jes] ad.是的4 is [iz, s, z, ?z] v.be动词现在时第三人称单数5 this [ðis] pron.这6 your [j?:, j?:, j?r...
分类:其他好文   时间:2014-07-21 14:29:27    阅读次数:541
日志分析 logstash elashsearch kibana
日志分析界面:logstash(分析端)+elashsearch(存储端)+kibana(展示端)工具:进行数据整理statsd1、diamond-->statsd-->graphite2、实时收集数据的做法:logstash-->statsd-->graphite日志收集可视化(LEK):logstash+elasticsearch+kibanalegend:logstash--》..
分类:其他好文   时间:2014-07-20 23:38:43    阅读次数:696
java读取中文分词工具(2)
/* * 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落。 * 这个类适合读取每行数量较少的文本,比如分好段落的文本,一个段落一行存储。 * 读取一行,步长为1,返回词组。不会跨段落生成词组。 * 两种模式: * 1 读到文件末尾,结束 * 2 读到文件末尾,从头再来 */...
分类:编程语言   时间:2014-07-19 08:07:56    阅读次数:324
java读取中文分词工具
/* * 文本格式:已分词的中文文本,空格分割。有若干行,每行为一个段落。 * 功能:遍历文档,逐个返回词语。 * 两种模式: * 1 到文档末尾后,结束 * 2 到文档末尾后,从头再读。 /...
分类:编程语言   时间:2014-07-19 02:16:37    阅读次数:238
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!