当前几个主要的Lucene中文分词器的比较

时间：2014-05-24 11:47:16 阅读：358 评论：0 收藏：0 [点我收藏+]

1. 基本介绍：

imdict ：imdict智能词典所采用的智能中文分词程序

mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器

ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式

2. 开发者及开发活跃度：

paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132

imdict ：XiaoPingGao，进入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24，

mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本号 57，log为：mmseg4j-1.7 创建分支

ik ：linliangyi2005，google code 中 2009-07-31，版本号 41

3. 用户自定义词库：

paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载

imdict ：暂时不支持用户自定义词库。但原版 ICTCLAS 支持。支持用户自定义 stop words

mmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.path

ik ：支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，/r/n 分割。不支持自动检测。

4. 速度（基于官方介绍，非自己测试）

paoding ：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字

imdict ：483.64 (字节/秒)，259517(汉字/秒)

mmseg4j ： complex 1200kb/s左右, simple 1900kb/s左右

ik ：具有50万字/秒的高速处理能力

原文地址：http://www.cnblogs.com/haomad/p/3748101.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行