需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IKAnalyzer):[java]viewplaincopypackagecom.haha.test;importjava.io.IOException;importjava.io.StringReader;importorg.apache.lucene.analysis.Ana..
分类:
编程语言 时间:
2014-05-20 20:28:42
阅读次数:
390
前言:前两天在查找如何扩展log4net的日志格式时找到一个开源项目Log4net.NoSql,它通过扩展Appender实现了把日志输出到ElasticSearch里面。顺藤摸瓜,发现涉及的项目还挺多,于是打算学习一下,记录在此。项目一句话简介,详情点击链接去项目主页查看,最后提供打包下载:1.
...
分类:
数据库 时间:
2014-05-15 17:36:51
阅读次数:
559
最近做日志分析,发现logstash较符合自己的需求,Logstash:做系统log收集,转载的工具。同时集成各类日志插件,对日志查询和分析的效率有很大的帮助.一般使用shipper作为log收集、indexer作为log转载.Logstashshipper收集log并将log转发给redis存储Logstashindexer从redis中读..
分类:
其他好文 时间:
2014-05-15 00:42:49
阅读次数:
655
运用前面几篇文章中的分词算法,可以把中文中的词语分出来,但是不同算法可能得到的分词结果不一样,到底如何确定那种分词效果最好呢。我们在这篇文章中探讨一种判断分词效果好坏的方法。
在分词的时候,有些单字是不成词的。可以搜索所有分词的可能性,然后对每一种分词结果进行统计,规则如下:每分出一个词就给分词统计结果加一,如果遇到不成词的单字就再给该分词结果加一。得到的结果分别计算出来。选出一个得分最低的就是所要分词的字符串的结果。
下面就用代码实现一下上面的思想。分别用正向最大匹配和逆向...
分类:
其他好文 时间:
2014-05-14 21:04:01
阅读次数:
256
一、简介
SDL(Simple DirectMedia Layer)是一套开放源代码的跨平台多媒体开发库,使用C语言写成。SDL提供了数种控制图像、声音、输出入的函数,让开发者只要用相同或是相似的代码就可以开发出跨多个平台(Linux、Windows、Mac OS X等)的应用软件。目前SDL多用于开发游戏、模拟器、媒体播放器等多媒体应用领域。
二、配置
sudo apt-get insta...
分类:
其他好文 时间:
2014-05-14 20:21:52
阅读次数:
351
上一篇文章中介绍了一种中文分词的选取算法,本篇文章将介绍另外一种中文分词选取算法,依概率选取算法。
中文分词分词完成之后,还是上篇文章中的原则,分词结果不唯一,然后我们算法的目的是从几种分词好的算法之后选取一个作为分词的最终结果。算法会统计每个词在所有文档中的概率,该算法的中心思想是计算一个字符串中所有分词的概率之积,选取概率最大的作为分词的最终结果。
算法步骤:第一步,通过上几篇文章的的算法对字符串进行分词;第二步,扫描每一次分词结果;第三步,计算每一次分词结果的所有词的概...
分类:
其他好文 时间:
2014-05-14 20:05:32
阅读次数:
285
1、对elsasticsearch index的解释,What exactly is an index
in Elasticsearch ?basic definitionAn index isdefinedas:An index is like a
‘database’ in a relation...
分类:
其他好文 时间:
2014-05-14 03:21:49
阅读次数:
287
官方网站:https://code.google.com/p/friso/
最新动态:friso-1.6.0发布了(2014.05.08 最新版本)
开源,简单易用,很适合分词技术的研究。
一。friso中文分词器
Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支...
分类:
Web程序 时间:
2014-05-08 08:17:13
阅读次数:
892
中文分词算法在前两篇文章中介绍了正向最大匹配算法和逆向最大匹配算法
本篇文章主要介绍最少单词数算法。顾名思义,就是最少的单词数。
算法思想是首先查找词典中最长的单词,匹配看是不是所要分词的字符串的子串,如果是则就是分词的词,迭代以上结果,每次都会在字符串中最长的单词分词,就可以得到最少的单词数
不多说了 直接上代码:
package com;
import java.ut...
分类:
其他好文 时间:
2014-05-08 05:05:21
阅读次数:
380
中文分词应用很广泛,网上也有很多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码
package com;
import java.util.ArrayList;
import java.util.List;
public class Segmentation1 {
private List dictionary = new ArrayList();
...
分类:
其他好文 时间:
2014-05-07 16:30:27
阅读次数:
317