码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
和我一起打造个简单搜索之IK分词以及拼音分词
elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字。所以我们引入 es 插件 es ik。同时为了提升用户体验,引入 es pinyin 插件。本文介绍这两个 es 插件的安装。 <! more 环境 本文以及后续 es 系列文章都基于 5.5. ...
分类:其他好文   时间:2018-11-15 23:14:43    阅读次数:421
Mysql 中 JSON_CONTAINS、JSON_ARRAY 的使用
1、用科大讯飞语音识别到的已经中文分词的文字,例:“我”“想”“销”“存单” 2、根据上面语音识别出来的多个关键字,在数据表中查找出包含上述四个关键字中任意若干个数据。 表中数据大概这样: 要从此表中匹配到包含上述四个关键字中的任意若干个,可这样: 即可搜索到数据 另附上部分sql,以防之后忘记 其 ...
分类:数据库   时间:2018-11-10 20:09:56    阅读次数:8487
基于隐马尔科夫模型的中文分词方法
本文讲述隐马尔科夫模及其在中文分词中的应用。 基于中文分词语料库,建立中文分词的隐马尔科夫模型,最后用维特比方法进行求解。 ...
分类:其他好文   时间:2018-11-06 19:26:33    阅读次数:130
Hanlp 在Python环境中安装、介绍及使用
Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁 Hanl ...
分类:编程语言   时间:2018-11-04 01:40:20    阅读次数:279
一套准确率高且效率高的分词、词性标注工具-thulac
软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约 ...
分类:其他好文   时间:2018-10-31 12:35:48    阅读次数:215
Lucene
核心示例代码: Lucene深入(Luke&&中文分词器&&查询语句见相关文档) ...
分类:Web程序   时间:2018-10-28 16:12:23    阅读次数:159
如何修复无法启动的docker容器
如何修复无法启动的docker容器背景:测试服务器上使用docker搭建了个elasticsearch服务集群,由于需要为es安装中文分词的插件,不料安装的姿势有问题,导致无法启动了。由于是测试开发所用,也没有为容器挂载数据卷,所以容器关闭后宿主机上就没有相关的目录了。而且是plugins目录结构的原因导致es服务找不到相关文件无法启动。解决方法,使用cp命令将整个plugins目录复制到宿主机下
分类:其他好文   时间:2018-10-26 16:23:51    阅读次数:575
NLP汉语自然语言处理入门基础知识介绍
NLP汉语自然语言处理入门基础知识介绍 自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标 ...
分类:编程语言   时间:2018-10-23 12:08:08    阅读次数:177
爬虫原理与数据抓取-----(了解)通用爬虫和聚焦爬虫
通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 ...
分类:其他好文   时间:2018-10-13 10:23:53    阅读次数:229
中文分词算法综述
英文文本词与词之间以空格分隔,方便计算机识别,但是中文以字为单位,句子所有字连起来才能表达一个完整的意思。如英文“I am writing a blog”,英文词与词之间有空格进行隔开,而对应的中文“我在写博客”,所有的词连在一起,计算机能很容易的识别“blog”是一个单词,而很难知道“博”、“客” ...
分类:编程语言   时间:2018-10-06 18:33:10    阅读次数:187
704条   上一页 1 ... 13 14 15 16 17 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!