https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j ...
分类:
其他好文 时间:
2019-03-22 18:41:18
阅读次数:
211
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-03-18 19:52:31
阅读次数:
169
!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba import jieba str="在神兽白泽的陪同下,游览大千世界,揭秘诸神奥妙。从凯尔特的神话世界出发,北欧、埃及、希腊、希伯来、印度、九州……无尽神话历史,无数神魔鬼怪 ...
分类:
其他好文 时间:
2019-03-18 18:46:54
阅读次数:
260
中文词频统计 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word( ...
分类:
其他好文 时间:
2019-03-18 18:31:05
阅读次数:
194
中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...
分类:
其他好文 时间:
2019-03-18 18:16:09
阅读次数:
165
Python数据可视化之Wordcloud: 先来看一下效果:基于jieba+wordcloud: 安装: ps: 可能会安装失败,因为缺少c++编译,办法的话,可以安装c++编译,或者去python包的社区进行下载安装 快速生成词云 word cloud 参数 ...
分类:
其他好文 时间:
2019-03-11 13:14:26
阅读次数:
170
2019-02-21 19:45:47 话不多说,开始! Python 二级要求掌握的库有:turtle、random、time、其他库有request、jieba等,都比较简单,现在开始复习。 (一) turtle库 画图。导入方式 1.1 窗体函数 t.setup(width,lenth,sta ...
分类:
编程语言 时间:
2019-02-21 21:52:44
阅读次数:
249
简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: ...
分类:
编程语言 时间:
2019-02-17 20:50:29
阅读次数:
239
关键词: TF-IDF实现、TextRank、jieba、关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考前一篇文章介绍: 介绍了文本关键词提取的原理,tfidf算法和TextRank算法 利用sklearn实现tfi ...
分类:
编程语言 时间:
2019-02-12 21:29:24
阅读次数:
575
资深Python程序员教你简单、有趣的程序:使用第三方库jieba切分,统计统计名著三国演义中人物名字出现次数。资深Python程序员教你统计,三国中人物名字出现的频率,很简单其中一个jieba库是一个对中文文本依照汉字间关联概率进行词组划分的第三方库,使用简单,且非常好用importjiebadefgetWords():txt=open(‘novels/threekingdoms.txt‘,‘r
分类:
编程语言 时间:
2019-02-11 01:01:38
阅读次数:
618