搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

jieba分词以及word2vec词语相似度

去除标点符号，下一步开始文本相似度计算：参考文章：http://www.jb51.net/article/139690.htmfromgensim.modelsimportWord2Vecmodel=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)参数解释：1.

分类：其他好文时间：2018-05-28 18:28:54 阅读次数：332

中文词频统计

下载一长篇中文文章。从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...

分类：其他好文时间：2018-05-25 13:34:32 阅读次数：137

Python库大全

通用： urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库（基于pycurl）。 pycurl – 网络库（绑定libcurl）。 urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。 httplib2 – 网络库。 Rob ...

分类：编程语言时间：2018-05-17 13:35:34 阅读次数：201

ElasticSearch 5.5 离线环境的完整安装及配置详情，附kibana、ik插件配置及安装包下载路径

此文针对局域网环境（非公网环境），提供ElasticSearch 5.5.2的完整安装及配置教程，包括ES的kibana插件、IK中文分词插件安装及配置。另外，文章最后提供安装配置环境涉及到的所有安装包及参考指南，供大家学习。环境准备安装环境 Linux环境，内网测试版本为：Red Hat E ...

分类：其他好文时间：2018-05-11 20:41:37 阅读次数：850

漫谈ElasticSearch关于ES性能调优几件必须知道的事(转)

ElasticSearch是现在技术前沿的大数据引擎，常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统，其中Logstash是ETL工具，Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略，ES开放了一些接口供开发者研发自己的插件，ES结合中文分词的 ...

分类：其他好文时间：2018-05-10 19:37:21 阅读次数：178

搜索引擎系列四：Lucene提供的分词器、IKAnalyze中文分词器集成

一、Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在pom.xml里面引入如下依赖 3. 新建一个标准分词器StandardAnalyzer的测试类Luc ...

分类：Web程序时间：2018-05-05 12:34:28 阅读次数：201

Python第三方库____jieba

jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库，需要额外安装（pip install jieba） jieba库提供三种分词模式，最简单只需掌握一个函数 jieba分词原理利用一个中文词库，确定汉字之间的关系概率汉字之间概率大的组成词组 ...

分类：编程语言时间：2018-05-01 23:27:12 阅读次数：468

Lucence

1、关键字检索的第一步是对整个文档分词英文空格中文中文词库配合中文分词法中文分词有IK和庖丁，直接配置就可以使用 2、lucence的开源项目 --lucence core:java编写的核心类库，提供了全文检索功能的底层API与SDK --Solr:基于lucence core开发的高性 ...

分类：其他好文时间：2018-04-28 19:42:03 阅读次数：235

elasticsearch安装中文分词器插件smartcn

原文：http://blog.java1234.com/blog/articles/373.html elasticsearch安装中文分词器插件smartcn elasticsearch默认分词器比较坑，中文的话，直接分词成单个汉字。我们这里来介绍下smartcn插件，这个是官方推荐的，中科院搞 ...

分类：其他好文时间：2018-04-28 11:41:21 阅读次数：180

《数学之美》——第四章个人笔记

第四章谈谈分词 1 中文分词方法的演变最早的方法（北航）：查字典，可以解决七八成问题，成本不高，效果还行。随后（哈工大）:最少词数的分词理论，即一句话应该分词数量最少的词串。不足之处在于二义性。郭进（清华）：统计语言模型方法，文中有详细的公式说明。就是对一句话可能有S种分法，其中有一种分法出 ...

分类：其他好文时间：2018-04-24 20:22:27 阅读次数：194

共704条上一页 1 ... 18 19 20 21 22 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)