码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
.NET Core中文分词组件jieba.NET Core
特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM;搜索引擎模式,在精确模式的基础上,对长词再次..
分类:Web程序   时间:2017-05-15 22:45:12    阅读次数:1008
python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧。 对于我这样的的萌新。这是第一步。 在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。 还有一些别的操作。 这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操 ...
分类:编程语言   时间:2017-05-14 23:37:38    阅读次数:498
运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中
原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中 依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTML ...
分类:数据库   时间:2017-05-02 15:24:04    阅读次数:470
Python3制作中文词云图
1. 准备好文本数据 2. pip install jieba 3. pip install wordcloud 4. 下载字体例如Songti.ttc(mac系统下的称呼,并将字体放在项目文件夹下) 运行结果如下: 参考网址:http://blog.csdn.net/vivian_ll/artic ...
分类:编程语言   时间:2017-04-29 13:43:46    阅读次数:395
《人民的名义》---简单的文本分析
我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧《人民的名义》进行分词,并对它进行一些简单的文本分析。 一、jieba模块中常用的方法说明(github): 1.分词: jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是 ...
分类:其他好文   时间:2017-04-21 20:16:15    阅读次数:347
python 分词计算文档TF-IDF值并排序
文章来自于我的个人博客:python 分词计算文档TF-IDF值并排序 该程序实现的功能是:首先读取一些文档,然后通过jieba来分词,将分词存入文件,然后通过sklearn计算每一个分词文档中的tf-idf值,再将文档排序输入一个大文件里 依赖包: sklearn jieba 注:此程序參考了一位 ...
分类:编程语言   时间:2017-04-17 14:21:07    阅读次数:388
Python 文本相似度分析
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities 进行语料库建立,模型tfidf算法,稀疏矩阵相似度分析 代码 # -*- coding: utf-8 ...
分类:编程语言   时间:2017-03-29 21:02:54    阅读次数:411
Python3.5 数据处理 –jieba + sklearn库安装及第一个示例
一,安装pip3: 二,安装jieba: 三,安装sklearn: 四,安装sklearn依赖(numpy,scipy): eg:国内安装时可能出现time-out错误—解决办法如下: 五,简单实现分词并计算TF-IDF值: 以上就是Python3.5 数据处理 –jieba + sklearn库安 ...
分类:编程语言   时间:2017-03-27 18:33:55    阅读次数:292
Python3.5 数据处理 --jieba + sklearn库安装及第一个示例
一,安装pip3: 二,安装jieba: 三,安装sklearn: 四,安装sklearn依赖(numpy,scipy): eg:国内安装时可能出现time-out错误 解决办法如下: 五,简单实现分词并计算TF-IDF值: ...
分类:编程语言   时间:2017-03-23 23:26:09    阅读次数:420
后端程序员之路 19、结巴分词
有哪些比较好的中文分词方案? - 知乎https://www.zhihu.com/question/19578687 fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba 关键功能与特性:1、中文分词,支持繁体和自定义词典,非win支持并行2、词性标注3 ...
分类:其他好文   时间:2017-03-21 12:20:28    阅读次数:150
462条   上一页 1 ... 40 41 42 43 44 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!