搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

solrcloud配置中文分词器ik

无论是solr还是luncene,都对中文分词不太好，所以我们一般索引中文的话需要使用ik中文分词器。三台机器（192.168.1.236，192.168.1.237，192.168.1.238）已经安装好了solrcloud 我安装的是solr5.5使用的是ik是IKAnalyzer2012FF ...

分类：其他好文时间：2017-10-26 13:28:21 阅读次数：262

solr7.0.0+IKAnalyzer中文分词器V2012+tomcat9

solr7,刚出来，如何让它成为一个web工程在tomcat上部署它，是一个重要的问题，以下步骤分别解决这些问题，同时使用IKAnalyzer中文分词器分词器。一，修改solr7的源代码，让core所在的目录默认位于{webRoot上下文}/solr下面，从而在tomcat上部署该应用时不用再去修 ...

分类：其他好文时间：2017-10-24 14:03:02 阅读次数：158

【转】jieba.NET与Lucene.Net的集成

首先声明：我对Lucene.Net并不熟悉，但搜索确实是分词的一个重要应用，所以这里还是尝试将两者集成起来，也许对你有一参考。看到了两个中文分词与Lucene.Net的集成项目：Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg，参考其中的代码实 ...

分类：Web程序时间：2017-10-20 20:11:57 阅读次数：283

NLP分词

英文分词： #中文分词 #社交网络语言的tokenize【正则表达式】 ...

分类：其他好文时间：2017-10-18 01:59:34 阅读次数：252

【转】中文分词之HMM模型详解

关于HMM模型的介绍，网上的资料已经烂大街，但是大部分都是在背书背公式，本文在此针对HMM模型在中文分词中的应用，讲讲实现原理。尽可能的撇开公式，撇开推导。结合实际开源代码作为例子，争取做到雅俗共赏，童叟无欺。没有公式，就没有伤害。模型介绍第一次听说HMM模型是从李开复的博文论文中听说的： ...

分类：其他好文时间：2017-10-16 16:54:45 阅读次数：174

IKAnalyzer结合Lucene实现中文分词

1、基本介绍随着分词在信息检索领域应用的越来越广泛，分词这门技术对大家并不陌生。对于英文分词处理相对简单，经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词，单对于中文分词而言，由于语义的复杂导致分词并没英文分词那么简单，一般都是通过相关的分词工具来实现，目前比较常用的有庖丁分词以及IK ...

分类：Web程序时间：2017-10-12 19:12:46 阅读次数：220

ElasticStack系列之十二 & 搜索结果研究

问题使用 ElasticSearch 做搜索时，比如用户输入 --> 柠檬，搜出来的结果 --> 柠檬汽水，柠檬味牙膏等在前面，真正想要的水果那个柠檬在后面。已经在中文分词中加了柠檬，还是不管用，正常来说 tf、idf 都一样，影响排序的只有 field norms。按道理 “柠檬” 的 ...

分类：其他好文时间：2017-10-09 19:47:26 阅读次数：279

（五）Lucene——中文分词器

1. 什么是中文分词器对于英文，是安装空格、标点符号进行分词对于中文，应该安装具体的词来分，中文分词就是将词，切分成一个个有意义的词。比如：“我的中国人”，分词：我、的、中国、中国人、国人。 2. Lucene自带的中文分词器 StandardAnalyzer：单字分词：就是按照中文一个字一 ...

分类：Web程序时间：2017-10-09 02:02:17 阅读次数：336

中文词频统计

中文分词解读：讲的是三藏与大圣美猴王的故事 ...

分类：其他好文时间：2017-09-30 00:31:42 阅读次数：131

中文词频统计

中文分词 ...

分类：其他好文时间：2017-09-29 23:13:19 阅读次数：345

共704条上一页 1 ... 24 25 26 27 28 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)