1.下载一中文长篇小说,并转换成UTF-8编码。 2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 3.排除一些无意义词、合并同一词。 ...
分类:
其他好文 时间:
2017-09-29 19:48:58
阅读次数:
208
中文分词 1.下载一中文长篇小说,并转换成UTF-8编码。 2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 3.排除一些无意义词、合并同一词。 4.对词频统计结果做简单的解读。 截图: 分析:在大数据时代,人们利用机器人去分析,计算,规划,决策,可想而知大大提高社会生产效率, ...
分类:
其他好文 时间:
2017-09-29 17:45:36
阅读次数:
314
1·’下载一中文长篇小说,并转换成UTF-8编码。 2、使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 3、排除一些无意义词、合并同一词。 4、对词频统计结果做简单的解读。 解读:从上图可以看出《孔乙己》短篇小说的主人公叫孔乙己与酒店的掌柜,文章有侧重于外貌描写,如长衫,样子等词 ...
分类:
其他好文 时间:
2017-09-29 16:50:27
阅读次数:
154
import jiebafo=open('text.txt','r',encoding='utf-8')t=fo.read()fo.close() words=jieba.cut(t)dic={}for w in words: if len(w)==1: continue else: dic[w]= ...
分类:
其他好文 时间:
2017-09-29 16:44:11
阅读次数:
112
中文分词 足以看出红楼梦中的主角以宝玉、贾母、凤姐、王夫人、老太太和黛玉为主,并有多次众人相聚聊天。 ...
分类:
其他好文 时间:
2017-09-29 16:40:39
阅读次数:
172
1.下载一中文长篇小说,并转换成UTF-8编码。 2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 3.排除一些无意义词、合并同一词。 4.对词频统计结果做简单的解读 通过词频分析,《阿Q正传》是以辛亥革命前后的中国农村为背景,描写未庄流浪雇农阿Q,虽然干起活来“真能做”,但却 ...
分类:
其他好文 时间:
2017-09-29 16:33:54
阅读次数:
158
中文分词 下载一中文长篇小说,并转换成UTF-8编码。 b=open('book.txt','r',encoding='utf-8') book=b.read() b.close() 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 import jieba b=open('boo ...
分类:
其他好文 时间:
2017-09-29 14:59:06
阅读次数:
149
下载一中文长篇小说,并转换成UTF-8编码。 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 排除一些无意义词、合并同一词。 对词频统计结果做简单的解读 ...
分类:
其他好文 时间:
2017-09-29 14:01:17
阅读次数:
167
中文分词 下载一中文长篇小说,并转换成UTF-8编码。 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 排除一些无意义词、合并同一词。 对词频统计结果做简单的解读。 import jieba news=open('jane.txt','r',encoding='utf-8').r ...
分类:
其他好文 时间:
2017-09-29 14:00:34
阅读次数:
116