搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

数学之美番外篇：平凡而又神奇的贝叶斯方法

http://blog.csdn.net/zang141588761/article/details/48780733 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数 ...

分类：其他好文时间：2017-02-09 20:20:04 阅读次数：321

平衡的三叉树

去年3月份，写了一个平衡的三叉树算法包，还写了一个基于逆向最大匹配算法的中文分词算法包。现在，将平衡的三叉树算法包上传。首先看一下包结构： 1.chinese.utility.cfg代码： package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词 ...

分类：其他好文时间：2017-02-04 22:09:42 阅读次数：328

Python自然语言处理学习——jieba分词

jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件，可以在Github上查看jieba项目。要使用jieba中文分词，首先需要安装jieba中文分词，作者给出了如下的安装方法： 1.全自动安装：easy_install jieba 或者 pip install ji ...

分类：编程语言时间：2017-01-19 04:10:29 阅读次数：349

转]python 结巴分词(jieba)学习

原文 http://www.gowhich.com/blog/147 主题中文分词 Python 源码下载的地址：https://github.com/fxsjy/jieba 演示地址：http://jiebademo.ap01.aws.af.cm/ 特点 1，支持三种分词模式： a,精确模式，试 ...

分类：编程语言时间：2017-01-12 12:58:34 阅读次数：248

Elasticsearch笔记(一)—Elasticsearch安装配置

原文链接：https://my.oschina.net/jhao104/blog/644909 摘要: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apa ...

分类：其他好文时间：2017-01-09 12:29:54 阅读次数：281

【整理】Linux下中文检索引擎coreseek4安装，以及PHP使用sphinx的三种方式(sphinxapi，sphinx的php扩展，SphinxSe作为mysql存储引擎)

一，软件准备 coreseek4.1 （包含coreseek测试版和mmseg最新版本，以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】） Mysql源码包（必须选择与你已安装mysql的版本一致）为了避免安装中出现依赖包缺失，你需要打 ...

分类：数据库时间：2017-01-03 22:37:21 阅读次数：508

Linux下安装使用Solr

Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压，这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词，所以要设置编码，进入tomcat安装目录，使用vi修改confserver.xml配置增加 URIEncoding="UTF-8" ...

分类：系统相关时间：2016-12-16 16:52:39 阅读次数：249

Sphinx + Coreseek 实现中文分词搜索

Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使...

分类：其他好文时间：2016-12-15 12:15:09 阅读次数：490

为Elasticsearch添加中文分词，对比分词器效果

http://keenwon.com/1404.html Elasticsearch中，内置了很多分词器（analyzers），例如standard （标准分词器）、english（英文分词）和chinese （中文分词）。其中standard 就是无脑的一个一个词（汉字）切分，所以适用范围广，但是 ...

分类：其他好文时间：2016-12-08 03:09:40 阅读次数：326

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

抓了20000多条的短评数据，利用Word2Vec算法做了一回情感分析，透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库，Word2Vec又是如何构建语料库，训练数据集以及得到模型的。 ...

分类：编程语言时间：2016-12-04 07:51:59 阅读次数：817

共704条上一页 1 ... 37 38 39 40 41 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)