码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
jieba分词以及word2vec词语相似度
去除标点符号,下一步开始文本相似度计算:参考文章:http://www.jb51.net/article/139690.htmfromgensim.modelsimportWord2Vecmodel=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)参数解释:1.
分类:其他好文   时间:2018-05-28 18:28:54    阅读次数:332
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-05-25 13:34:32    阅读次数:137
Python库大全
通用: urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。 urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。 httplib2 – 网络库。 Rob ...
分类:编程语言   时间:2018-05-17 13:35:34    阅读次数:201
ElasticSearch 5.5 离线环境的完整安装及配置详情,附kibana、ik插件配置及安装包下载路径
此文针对局域网环境(非公网环境),提供ElasticSearch 5.5.2的完整安装及配置教程,包括ES的kibana插件、IK中文分词插件安装及配置。 另外,文章最后提供安装配置环境涉及到的所有安装包及参考指南,供大家学习。 环境准备 安装环境 Linux环境,内网测试版本为:Red Hat E ...
分类:其他好文   时间:2018-05-11 20:41:37    阅读次数:850
漫谈ElasticSearch关于ES性能调优几件必须知道的事(转)
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 ...
分类:其他好文   时间:2018-05-10 19:37:21    阅读次数:178
搜索引擎系列四:Lucene提供的分词器、IKAnalyze中文分词器集成
一、Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在pom.xml里面引入如下依赖 3. 新建一个标准分词器StandardAnalyzer的测试类Luc ...
分类:Web程序   时间:2018-05-05 12:34:28    阅读次数:201
Python第三方库____jieba
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库,需要额外安装 (pip install jieba) jieba库提供三种分词模式,最简单只需掌握一个函数 jieba分词原理 利用一个中文词库,确定汉字之间的关系概率 汉字之间概率大的组成词组 ...
分类:编程语言   时间:2018-05-01 23:27:12    阅读次数:468
Lucence
1、关键字检索的第一步是对整个文档分词 英文 空格 中文 中文词库配合中文分词法 中文分词有IK和庖丁,直接配置就可以使用 2、lucence的开源项目 --lucence core:java编写的核心类库,提供了全文检索功能的底层API与SDK --Solr:基于lucence core开发的高性 ...
分类:其他好文   时间:2018-04-28 19:42:03    阅读次数:235
elasticsearch安装中文分词器插件smartcn
原文:http://blog.java1234.com/blog/articles/373.html elasticsearch安装中文分词器插件smartcn elasticsearch默认分词器比较坑,中文的话,直接分词成单个汉字。 我们这里来介绍下smartcn插件,这个是官方推荐的,中科院搞 ...
分类:其他好文   时间:2018-04-28 11:41:21    阅读次数:180
《数学之美》——第四章 个人笔记
第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 ...
分类:其他好文   时间:2018-04-24 20:22:27    阅读次数:194
704条   上一页 1 ... 18 19 20 21 22 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!