实现思路很简单: 基于「短语匹配」并设置最小匹配权重值 哪来的短语,利用 IK 分词器分词 基于 Fiter 实现筛选 基于 Pageable 实现分页排序 ...
分类:
编程语言 时间:
2018-03-22 19:33:29
阅读次数:
291
始终觉得官方文档是最好的学习途径。嗯,我只是一个大自然的搬运工。 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使 ...
分类:
其他好文 时间:
2018-03-14 18:07:36
阅读次数:
193
一、WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理。很明显这个实用英文,单词之间用空格。 二、SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。很明显不适用于中文环境。 三、StopAnalyzer 停 ...
分类:
Web程序 时间:
2018-03-11 02:43:42
阅读次数:
251
主要知识点: 对类似文件系统这种的有多层级关系的数据进行建模 对上述模型数据进行搜索 一、文件系统数据构造 1、新建index,并自定义analyzer 新建一个index,自定义一个名为paths的analyzer,这个analyzer所用的分词器是path_hierarchy。语法: PUT /... ...
分类:
其他好文 时间:
2018-03-11 00:22:11
阅读次数:
175
在之前我们学的都是英文,用的也是英文的standard分词器。从这一节开始,学习中文分词器。中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人 --> 中 国 人 在中方搜索引擎领域,比较成熟和流行的,就... ...
分类:
其他好文 时间:
2018-03-08 23:03:39
阅读次数:
407
主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
ES在更改分词器或更改已有mapping结构后需要重新重新索引,当然复制也是一样的,相当于重新生成索引信息 //es的head插件地址:http://localhost:9200/_plugin/head/ //新建索引PUT /my_index_new{//此处mapping复制的时候可以复制已有 ...
分类:
其他好文 时间:
2018-03-06 10:16:12
阅读次数:
602
最近用到分词考虑很久,选用了结巴分词,原因见博客 "Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考" 既然选好了,难就开始行动吧 。 查了.net core版的JIEba分词目前已经有人迁移了 1. "https://github.com ...
分类:
Web程序 时间:
2018-02-28 22:59:11
阅读次数:
969
主要知识点 理解es中的type数据类型 一、type的理解 type是一个index中用来区分类似的数据的,但是可能有不同的fields,而且有不同的属性来控制索引建立、分词器。field的value值在底层的lucene中建立索引的时候,全部是opaque bytes类型,不区分类型的。luce... ...
分类:
其他好文 时间:
2018-02-26 21:46:43
阅读次数:
1704
主要知识点 修改分词器 手动创建分词器 一、修改分词器 1、默认的分词器standard,主要有以下四个功能 standard tokenizer:以单词边界进行切分 standard token filter:什么都不做 lowercase token filter:将所有字母转换为小写 stop... ...
分类:
其他好文 时间:
2018-02-26 21:42:34
阅读次数:
243