中文分词 1.下载一中文长篇小说,并转换成UTF-8编码。(要在文件下面将格式转换。) 2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 3.排除一些无意义词、合并同一词。 4.对词频统计结果做简单的解读。 import jieba txt = open('小说.txt','r ...
分类:
其他好文 时间:
2017-09-29 12:43:27
阅读次数:
182
中文分词 下载一中文长篇小说,并转换成UTF-8编码。 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 排除一些无意义词、合并同一词。 对词频统计结果做简单的解读。 import jieba s=open('book.txt','r',encoding='utf-8').read ...
分类:
其他好文 时间:
2017-09-29 12:02:58
阅读次数:
154
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来。 词库 实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。 IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置: ht ...
分类:
其他好文 时间:
2017-09-27 11:31:31
阅读次数:
1238
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容? 我希望老师能讲下他自己做项目的经验与需要注意的地方,或者说说我们以后再这方面的发展的可以先从哪方面开始做起。 2.中文分词 ...
分类:
其他好文 时间:
2017-09-26 00:57:38
阅读次数:
103
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 处理某个沟通或技术性难题时是如何应对与解决的? 2.中文分词 (1)下载一中文长篇小说,并转换成UTF-8编码。 1 import jieba 2 novel = open('百年孤独.txt','w' ...
分类:
编程语言 时间:
2017-09-26 00:03:14
阅读次数:
129
1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波。 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。 >>>import jieba >>>lr = open('斗破 ...
分类:
其他好文 时间:
2017-09-25 22:01:27
阅读次数:
135
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容? 讲下Python的主要运用领域以及未来就业的方向 关于现在网络工程专业就业情况 2.中文分词 ...
分类:
其他好文 时间:
2017-09-25 21:59:06
阅读次数:
126
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 大数据会用到哪些技术? 2.中文分词 ...
分类:
其他好文 时间:
2017-09-25 21:52:36
阅读次数:
126