搜索关键字：中文分词器，搜索到127个结果！码迷,mamicode.com！

本文的目标有两个： 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** ?...

分类：编程语言时间：2015-05-10 06:26:32 阅读次数：227

安装环境的准备：（这里直接给相关软件的版本号了） centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了，要是不会直接百度各种有。具体步骤： 1.下载solr-4.10.4，然后解压开我这里解压到 /usr/local/zi...

分类：其他好文时间：2015-04-09 19:55:04 阅读次数：221

中文分词器的总结

0 —— Lucene & Nutch是一种神奇的东西，包含了语义分析，自然语言处理，中文分析，网络爬取，索引建立，html解析等，下面介绍几种常用的中文分词工具 1 —— StandardAnalyzer标准分析器，能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息，还可以支持过滤词表，用来替代StopAnalyzer能够完成的过滤功能。...

分类：其他好文时间：2015-02-23 13:11:29 阅读次数：156

IKAnalyzer 中文分词器

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。项目地址：http://www.oschina.net/p/ikanalyzer/ 下载页面：http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码： {CSDN:CODE:602681} 该代码的工程结构：下图...

分类：其他好文时间：2015-02-11 18:44:37 阅读次数：193

深度解析中文分词器算法（最大正向/逆向匹配）

1：非基于词典的分词（人工智能领域）相当于人工智能领域计算。一般用于机器学习，特定领域等方法，这种在特定领域的分词可以让计算机在现有的规则模型中，推理如何分词。在某个领域（垂直领域）分词精度较高。例：比较流行的语义网：基于本体的语义检索。 2：基于词典的分词（最为常见）这类分词算法比较常见，比如正向/逆向匹配。例如： mmseg分词器就是一种基于词典的分词算法。以最大正向匹配为主，多种消除歧义算法为辅。但是不管怎么分。该类分词方法，分词精度不高。由于中文比较复杂，不推荐采用正向...

分类：编程语言时间：2015-02-08 09:12:11 阅读次数：327

Solr配置中文分词器IK Analyzer详解

配置的过程中出现了一些小问题，一下将详细讲下IK Analyzer的配置过程，配置非常的简单，但是首先主要你的Solr版本是哪个，如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip，一定要对应上，要不然会配置失败。以下是详细步骤： 1、下载IK Analyzer。下载地址为：http://code.googl...

分类：其他好文时间：2015-02-03 19:28:06 阅读次数：223

solr配置中文分词器

可能需要连接上篇《Solr与tomcat整合》 1.从http://code.google.com/p/mmseg4j/ 下载mmseg4j 2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home 下的dic...

分类：其他好文时间：2015-01-29 09:39:49 阅读次数：153

Solr配置中文分词器mmseg4j详解

针对solr的分词器比较多，其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下，这两个分词器都挺好用。我搭建的solr环境（上一篇）是4.10.3的最新版本，以下将详细说下mmseg4j的配置。 1.首先下载对应的jar包。版本号一定要对应上否则可能会报错，下载地址为：http://code.google.com/p/mmseg4j/ 但是这个网址好...

分类：其他好文时间：2015-01-25 11:12:29 阅读次数：172

CRF分词的纯Java实现

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比，基于随机条件场（CRF）的分词对未登录词有更好的支持。本文（HanLP）使用纯Java实现CRF模型的读取与维特比后向解码，内部特征函数采用双数组Trie树(DoubleArrayTrie)储存，得到了一个高性能的中文分词器。CRF简介CRF...

分类：编程语言时间：2015-01-14 19:36:33 阅读次数：317

全文检索之lucene的优化篇--分词器

在创建索引库的基础上，加上中文分词器的，更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的方法,将...

分类：Web程序时间：2014-12-31 13:05:16 阅读次数：244

共127条上一页 1 ... 9 10 11 12 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)