1. 要求 环境: Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本 实现功能: 1).给定输入文本,获取中文拆分词结果;2).给定输入文本,对该文本按一定规则进行权重打分;如:文本中包含指定关键词的频率越高,分值越高。 2. 实现代码 输出: 原文:亭 ...
分类:
Web程序 时间:
2018-07-24 17:59:49
阅读次数:
193
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
本章重点介绍CentOS7 下部署Solr7 ,添加核心Core配置,Dataimport导入,中文分词的相关操作。 一、准备工作 演示环境是在虚拟机下安装的CentOS7、java JDK8、apache-tomcat-8.5.29。 在CentOS7 下安装jdk8以及tomcat8.5 的安装 ...
分类:
其他好文 时间:
2018-07-23 10:58:40
阅读次数:
262
读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任务(其实都是一些很简单的任务,纯练手用),后续会持续更新。 其它分析任务 点赞数 Top10 aut ...
分类:
编程语言 时间:
2018-07-20 01:11:04
阅读次数:
180
一、solr查询,查询配置了查询分词器的字段,默认会对查询关键字做分词处理 1、如查询关键字F1501ZY000011,使用solr7自带的中文分词器,默认会分词为:f,1501,zy,000011 2、不使用defType=edismax参数的查询结果 二、使用参数defType=edismax& ...
分类:
其他好文 时间:
2018-07-19 14:53:00
阅读次数:
659
最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧。 有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词。 目前有很多优秀的中文分 ...
分类:
其他好文 时间:
2018-07-19 14:50:41
阅读次数:
241
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 ...
分类:
编程语言 时间:
2018-07-18 20:47:32
阅读次数:
1682
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:
编程语言 时间:
2018-07-16 11:23:13
阅读次数:
195
昨天产品提了个需求,用户搜索‘Q币充值’,只要包含‘Q币’的产品都要搜索出来,我们知道,通常情况搜索是把整个字符串进行模糊查询,这种需求应该怎么解决,我们来看看 //首先引用两个DLL文件,再引用这三个命名空间,DLL文件底下会给链接 using Lucene.Net; using Lucene.N ...
分类:
其他好文 时间:
2018-07-13 13:17:03
阅读次数:
136
全文搜索现在已经是很常见的功能了,当然你也可以用mysql加Sphinx实现。但开源的Elasticsearch(简称ES)目前是全文搜索引擎的首选。目前像GitHub、维基百科都使用的是ES,它可以快速的存储,搜索和分析数据。 一、安装与启动 ES的运行需要依赖java环境,可以在命令行运行 ja ...
分类:
其他好文 时间:
2018-07-11 20:03:06
阅读次数:
185