1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 通过使用第三方的jieba库进行中文分词,其中有过多新闻正文内容包含视频链接,所以通过设计了停用词,去掉 ...
分类:
其他好文 时间:
2018-04-23 00:09:24
阅读次数:
228
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2。 1、安装并加载jiebaR 2、以2018年政府工作报告为文本,进行分词 (1)首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中 读取文本: (2)分词处理: ...
分类:
编程语言 时间:
2018-04-22 12:48:11
阅读次数:
900
Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——向量生成 20180417学习笔记、20180421修改 一、工作 今天中午开了一次小组讨论会议,老师旁听了并给出了一些意见。 今天的工作主要是两个,一个是构造SVM所需要的向量,一个是标注无关帖子500条。 但是后面遇 ...
分类:
编程语言 时间:
2018-04-21 17:34:43
阅读次数:
267
Wordcloud各参数含义 Python(wordcloud+jieba)生成中文词云图 ...
分类:
其他好文 时间:
2018-04-14 21:01:59
阅读次数:
191
三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 关键词提取 运行结果如图所示,但是同样的我们也发现了一些问题,比如: 问题一: 分词错误,在运行结果中中”路明非”(龙族男主)被分成了”路明”和”明非”啷个中文词语,这是因为jieba的词库中并不含有 ...
分类:
编程语言 时间:
2018-04-14 20:44:09
阅读次数:
529
Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——对抽取的关键词进行词频统计 20180413学习笔记 一、工作 前天在对帖子的关键词抽取存储后,发现一个问题。我似乎将每个关键词都存到分离的cell中,这样在最后统计总词频的时候,比较不好处理。于是,上回的那种样式: 是 ...
分类:
编程语言 时间:
2018-04-13 20:33:45
阅读次数:
329
在sypder上运行jieba库的代码: import matplotlib.pyplot as pltfracs = [2,2,1,1,1]labels = 'houqin', 'jiemian', 'zhengjiehong','baogan','dadaima'explode = [ 0,0, ...
分类:
其他好文 时间:
2018-04-11 23:08:22
阅读次数:
352
代码已发至github上的python文件 词频统计结果如下(词频为1的词组数量已省略): {'是': 5, '风格': 4, '擅长': 4, '的': 4, '兴趣': 4, '宣言': 4, '有': 3, 'python': 3, '代码': 2, '员': 2, 'helloworld': ...
分类:
其他好文 时间:
2018-04-11 23:04:15
阅读次数:
222
具体项目在githut里面: 应用jieba库分词 1)利用jieba分词来统计词频: 对应文本为我们队伍的介绍:jianjie.txt: 项目名称:碎片 项目描述:制作一个网站,拾起日常碎片,记录生活点滴! 项目成员:孔潭活、何德新、吴淑瑶、苏咏梅 成员风采: 孔潭活:2015034643032 ...
分类:
其他好文 时间:
2018-04-11 23:03:00
阅读次数:
312
#!/usr/bin/python# -*- coding:utf-8 -*- import imp,sys imp.reload(sys)from matplotlib.font_manager import FontPropertiesimport jieba.analyseimport mat ...
分类:
其他好文 时间:
2018-04-11 23:00:28
阅读次数:
318