码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
数学之美番外篇:平凡而又神奇的贝叶斯方法
http://blog.csdn.net/zang141588761/article/details/48780733 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数 ...
分类:其他好文   时间:2017-02-09 20:20:04    阅读次数:321
平衡的三叉树
去年3月份,写了一个平衡的三叉树算法包,还写了一个基于逆向最大匹配算法的中文分词算法包。现在,将平衡的三叉树算法包上传。首先看一下包结构: 1.chinese.utility.cfg代码: package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词 ...
分类:其他好文   时间:2017-02-04 22:09:42    阅读次数:328
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji ...
分类:编程语言   时间:2017-01-19 04:10:29    阅读次数:349
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题 中文分词 Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...
分类:编程语言   时间:2017-01-12 12:58:34    阅读次数:248
Elasticsearch笔记(一)—Elasticsearch安装配置
原文链接:https://my.oschina.net/jhao104/blog/644909 摘要: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa ...
分类:其他好文   时间:2017-01-09 12:29:54    阅读次数:281
【整理】Linux下中文检索引擎coreseek4安装,以及PHP使用sphinx的三种方式(sphinxapi,sphinx的php扩展,SphinxSe作为mysql存储引擎)
一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:数据库   时间:2017-01-03 22:37:21    阅读次数:508
Linux下安装使用Solr
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:系统相关   时间:2016-12-16 16:52:39    阅读次数:249
Sphinx + Coreseek 实现中文分词搜索
Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索 全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使...
分类:其他好文   时间:2016-12-15 12:15:09    阅读次数:490
为Elasticsearch添加中文分词,对比分词器效果
http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english(英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是 ...
分类:其他好文   时间:2016-12-08 03:09:40    阅读次数:326
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 ...
分类:编程语言   时间:2016-12-04 07:51:59    阅读次数:817
704条   上一页 1 ... 37 38 39 40 41 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!