码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
Lucene4:获取中文分词结果,根据文本计算boost
1. 要求 环境: Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本 实现功能: 1).给定输入文本,获取中文拆分词结果;2).给定输入文本,对该文本按一定规则进行权重打分;如:文本中包含指定关键词的频率越高,分值越高。 2. 实现代码 输出: 原文:亭 ...
分类:Web程序   时间:2018-07-24 17:59:49    阅读次数:193
文本和音频代码的小结
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:其他好文   时间:2018-07-23 19:57:03    阅读次数:182
Centos7下单机部署Solr7.3
本章重点介绍CentOS7 下部署Solr7 ,添加核心Core配置,Dataimport导入,中文分词的相关操作。 一、准备工作 演示环境是在虚拟机下安装的CentOS7、java JDK8、apache-tomcat-8.5.29。 在CentOS7 下安装jdk8以及tomcat8.5 的安装 ...
分类:其他好文   时间:2018-07-23 10:58:40    阅读次数:262
Python分析《我不是药神》豆瓣评论
读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任务(其实都是一些很简单的任务,纯练手用),后续会持续更新。 其它分析任务 点赞数 Top10 aut ...
分类:编程语言   时间:2018-07-20 01:11:04    阅读次数:180
solr精确查询,查询关键字分词后,指定满足匹配所有
一、solr查询,查询配置了查询分词器的字段,默认会对查询关键字做分词处理 1、如查询关键字F1501ZY000011,使用solr7自带的中文分词器,默认会分词为:f,1501,zy,000011 2、不使用defType=edismax参数的查询结果 二、使用参数defType=edismax& ...
分类:其他好文   时间:2018-07-19 14:53:00    阅读次数:659
Solr学习总结(八)IK 中文分词的配置和使用
最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧。 有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词。 目前有很多优秀的中文分 ...
分类:其他好文   时间:2018-07-19 14:50:41    阅读次数:241
自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 ...
分类:编程语言   时间:2018-07-18 20:47:32    阅读次数:1682
自然语言处理之中文分词器-jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:编程语言   时间:2018-07-16 11:23:13    阅读次数:195
中文分词
昨天产品提了个需求,用户搜索‘Q币充值’,只要包含‘Q币’的产品都要搜索出来,我们知道,通常情况搜索是把整个字符串进行模糊查询,这种需求应该怎么解决,我们来看看 //首先引用两个DLL文件,再引用这三个命名空间,DLL文件底下会给链接 using Lucene.Net; using Lucene.N ...
分类:其他好文   时间:2018-07-13 13:17:03    阅读次数:136
Elasticsearch入门和查询语法分析(ik中文分词)
全文搜索现在已经是很常见的功能了,当然你也可以用mysql加Sphinx实现。但开源的Elasticsearch(简称ES)目前是全文搜索引擎的首选。目前像GitHub、维基百科都使用的是ES,它可以快速的存储,搜索和分析数据。 一、安装与启动 ES的运行需要依赖java环境,可以在命令行运行 ja ...
分类:其他好文   时间:2018-07-11 20:03:06    阅读次数:185
704条   上一页 1 ... 16 17 18 19 20 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!