码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
后端程序员之路 19、结巴分词
有哪些比较好的中文分词方案? - 知乎https://www.zhihu.com/question/19578687 fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba 关键功能与特性:1、中文分词,支持繁体和自定义词典,非win支持并行2、词性标注3 ...
分类:其他好文   时间:2017-03-21 12:20:28    阅读次数:150
Coreseek Windows下安装调试
由于项目需要全文检索,后面就去网上查了下资料,找到了Sphinx【中文是狮身人面像】这个全文检索引擎,听说挺好用的,不过没有中文分词。后面又去找了一下,找到了Coreseek,一款中文全文检索/搜索软件。 一、Sphinx PHP扩展下载 PHP已经有专门的Sphinx的扩展文件,点击这里可以下载到 ...
分类:Windows程序   时间:2017-03-15 16:03:14    阅读次数:306
Elasticsearch 之 Hello World (二)
首先测试下分词尤其是中文分词功能,这个可是传统数据库如mysql,sqlserver的痛啊。 打开浏览器,并登录到http://localhost:5601,点击Dev Tools项,在Console栏输入 会在右面显示返回的结果 一切看上去都挺美好,等加入中文看看。 结果是 这显然不能忍啊,每个中 ...
分类:其他好文   时间:2017-02-28 15:19:09    阅读次数:237
06.中文分析器IKAnalyzer
为什么需要使用IKAnalyzer Lucene自带的标准分析器无法中文分词 Lucene自带的中文分析器分词不准确 IKAnalyzer支持屏蔽关键词、新词汇的配置 使用示例 建立索引时 略 QueryParser查询时 略 单独使用进行分词 自定义词库 在classpath下定义IKAnalyz... ...
分类:其他好文   时间:2017-02-28 13:26:22    阅读次数:207
solr中文分词
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:其他好文   时间:2017-02-27 15:48:01    阅读次数:221
对本地Solr服务器添加IK中文分词器实现全文检索功能
在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name、type、indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能 首先下载IK中文分词项目,下载地址https://code.google.com/ar ...
分类:其他好文   时间:2017-02-26 17:25:49    阅读次数:559
Elasticsearch之中文分词器插件es-ik的热更新词库
前提 Elasticsearch之中文分词器插件es-ik的自定义词库 先声明,热更新词库,需要用到,web项目和Tomcat。不会的,请移步 Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目) 在Eclipse里连接Tomcat部署到项目(maven项目和web项目 ...
分类:其他好文   时间:2017-02-25 12:27:25    阅读次数:3824
Elasticsearch之中文分词器插件es-ik
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1、elastics ...
分类:其他好文   时间:2017-02-24 22:12:56    阅读次数:787
【中文分词】结构化感知器SP
结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。 1. 结构化感知器 模型 CRF全局化地以最大熵准则建模概率P(Y|X)P(Y|X);其中, ...
分类:其他好文   时间:2017-02-19 18:15:33    阅读次数:268
wiki中文语料+word2vec (python3.5 windows win7)
环境: win7+python3.51. 下载wiki中文分词语料 使用迅雷下载会快不少,大小为1个多G https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2. 安装opencc用于中文的简繁... ...
分类:编程语言   时间:2017-02-18 18:35:17    阅读次数:7001
704条   上一页 1 ... 36 37 38 39 40 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!