搜索关键字：jieba，搜索到462个结果！码迷,mamicode.com！

.NET Core中文分词组件jieba.NET Core

特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义。具体来说，分词过程不会借助于词频查找最大概率路径，亦不会使用HMM；搜索引擎模式，在精确模式的基础上，对长词再次..

分类：Web程序时间：2017-05-15 22:45:12 阅读次数：1008

python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧。对于我这样的的萌新。这是第一步。在控制台输出txt文档的内容，注意中文会在这里乱码。因为和脚本文件放在同一个地方，我就没写路径了。还有一些别的操作。这是文件open（）函数的打开mode，在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操 ...

分类：编程语言时间：2017-05-14 23:37:38 阅读次数：498

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址：运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中依赖包： 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTML ...

分类：数据库时间：2017-05-02 15:24:04 阅读次数：470

Python3制作中文词云图

1. 准备好文本数据 2. pip install jieba 3. pip install wordcloud 4. 下载字体例如Songti.ttc（mac系统下的称呼，并将字体放在项目文件夹下）运行结果如下：参考网址：http://blog.csdn.net/vivian_ll/artic ...

分类：编程语言时间：2017-04-29 13:43:46 阅读次数：395

《人民的名义》---简单的文本分析

我们都知道进行自然语言处理的第一步就是分词，下面使用jieba模块对最近比较热的电视剧《人民的名义》进行分词，并对它进行一些简单的文本分析。一、jieba模块中常用的方法说明（github）： 1.分词： jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是 ...

分类：其他好文时间：2017-04-21 20:16:15 阅读次数：347

python 分词计算文档TF-IDF值并排序

文章来自于我的个人博客：python 分词计算文档TF-IDF值并排序该程序实现的功能是：首先读取一些文档，然后通过jieba来分词，将分词存入文件，然后通过sklearn计算每一个分词文档中的tf-idf值，再将文档排序输入一个大文件里依赖包： sklearn jieba 注：此程序參考了一位 ...

分类：编程语言时间：2017-04-17 14:21:07 阅读次数：388

Python 文本相似度分析

环境 Anaconda3 Python 3.6, Window 64bit 目的利用 jieba 进行分词，关键词提取利用gensim下面的corpora，models，similarities 进行语料库建立，模型tfidf算法，稀疏矩阵相似度分析代码 # -*- coding: utf-8 ...

分类：编程语言时间：2017-03-29 21:02:54 阅读次数：411

Python3.5 数据处理 –jieba + sklearn库安装及第一个示例

一，安装pip3：二，安装jieba：三，安装sklearn：四，安装sklearn依赖(numpy,scipy)： eg:国内安装时可能出现time-out错误—解决办法如下：五，简单实现分词并计算TF-IDF值：以上就是Python3.5 数据处理 –jieba + sklearn库安 ...

分类：编程语言时间：2017-03-27 18:33:55 阅读次数：292

Python3.5 数据处理 --jieba + sklearn库安装及第一个示例

一，安装pip3：二，安装jieba：三，安装sklearn：四，安装sklearn依赖(numpy,scipy)： eg:国内安装时可能出现time-out错误解决办法如下：五，简单实现分词并计算TF-IDF值： ...

分类：编程语言时间：2017-03-23 23:26:09 阅读次数：420

后端程序员之路 19、结巴分词

有哪些比较好的中文分词方案？ - 知乎https://www.zhihu.com/question/19578687 fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba 关键功能与特性：1、中文分词，支持繁体和自定义词典，非win支持并行2、词性标注3 ...

分类：其他好文时间：2017-03-21 12:20:28 阅读次数：150

共462条上一页 1 ... 40 41 42 43 44 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)