码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
轻松互联网开发平台(Easy do it,原名WebEasy)20150120更新
集成IKAnalyzer,简化了中文分词(详见下载包内的开发手册)。终身免费使用,能开发:大型手机App服务端系统 大型功能性网站开发(如:电子商务网站、社区、门户等) 大数据系统应用开发(与vertica无缝集成) 应用解决方案,如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等...
分类:Web程序   时间:2015-01-21 10:15:08    阅读次数:272
python 中文分词:结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:编程语言   时间:2015-01-17 15:11:28    阅读次数:183
ES1.4 中文分词插件ik
ES官方只支持smartcn这个中文分词插件,是按照单个字进行索引。前端产品搜索时,凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词,凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、an..
分类:其他好文   时间:2015-01-15 16:14:45    阅读次数:384
CRF分词的纯Java实现
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF...
分类:编程语言   时间:2015-01-14 19:36:33    阅读次数:317
中文分词和去停用词
最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:https://code.google.com/p/ik-analyzer/由于太多,而且名称我也搞不清楚,不知道下载哪个。后来我下载了可是本文Ja...
分类:其他好文   时间:2015-01-14 00:40:27    阅读次数:3869
中文分词技术
中文分词技术 http://blog.csdn.net/u012637501 一、中文分词技术 1.中文分词:上一篇博文我们谈到利用统计语言模型进行自然语言处理,而这些语言模型主要是建立在词的基础上的,因为词是表达语义的最小单位。对于西方拼音来讲,词之间有明确的分界符,统计和使用语言模型非常直接,如I love China very much.但是对于中文来说,由于词之间没有明确的分...
分类:其他好文   时间:2015-01-10 11:20:46    阅读次数:1190
Unsupported major.minor version 51.0错误解决
今天在做中文分词,遇到很多问题,真是困难重重,而且是让人哭笑不得的问题,觉累不爱了。。。下面和大家分享一下吧!...
分类:其他好文   时间:2015-01-05 16:49:07    阅读次数:117
Hadoop Mahout数据挖掘实战视频教程
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)适合人群:高级课时数量:17课时用到技术:MapReduce并行分词程序 Mahout涉及项目:Hadoop综合实战-文本挖掘项目 Mahout数据挖掘工具咨询QQ:1840215592课程介绍本课程主要涉及以下内容的...
分类:其他好文   时间:2015-01-05 12:52:24    阅读次数:532
CRF++中文分词使用指南
http://blog.csdn.net/marising/article/details/5769653前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/ope...
分类:其他好文   时间:2015-01-04 18:51:40    阅读次数:391
基于CRF的中文分词
http://biancheng.dnbcw.info/java/341268.htmlCRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:...
分类:其他好文   时间:2015-01-04 18:38:16    阅读次数:355
704条   上一页 1 ... 59 60 61 62 63 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!