在对python有了一定的了解之后就对python的第三方库产生了十分浓厚的兴趣,因为python的很多功能都是要依靠第三方库函数来实现的,而且在计算机二级刚刚加入的python考试中也有对第三方库的安装和运用有一定的要求,比如Turtle库、jieba库、pyinstaller库、wordclou ...
分类:
其他好文 时间:
2018-05-29 19:03:38
阅读次数:
186
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:47:33
阅读次数:
266
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:44:58
阅读次数:
404
这里介绍一下文本预处理中常用的操作: 1.英文统一小写 2.分词 3.去噪 两种方式 (1)去停用词 包括中英文标点符号、以及噪音词,参考附录[1] (2)只保留指定词典中的词 这个词典与任务强相关,通常是当前任务重点关注的特征词 其中,为了保证分词的结果是我们想要的,通常需要调整jieba词典: ...
分类:
其他好文 时间:
2018-05-29 12:33:14
阅读次数:
176
去除标点符号,下一步开始文本相似度计算:参考文章:http://www.jb51.net/article/139690.htmfromgensim.modelsimportWord2Vecmodel=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)参数解释:1.
分类:
其他好文 时间:
2018-05-28 18:28:54
阅读次数:
332
学习数据挖掘挺久了,要找工作啦,把之前的项目留下了,留下源代码 #数据的导入 import pandas as pd inputfile = '../data/huizong.csv' #评论汇总文件outputfile = '../data/meidi_jd.txt' #评论提取后保存路径data ...
分类:
其他好文 时间:
2018-05-26 23:24:49
阅读次数:
437
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:
其他好文 时间:
2018-05-25 13:34:32
阅读次数:
137
#python第三方库自动安装脚本,需要在cmd中运行此脚本#BatchInstall.pyimport oslibs = {"numpy","matplotlib","pillow","sklearn","requests",\ "jieba","beautifulsoup4","wheel"," ...
分类:
编程语言 时间:
2018-05-17 11:41:49
阅读次数:
429
大前天我们通过Python网络爬虫对朋友圈的数据进行了抓取,感兴趣的朋友可以点击进行查看,如何利用Python网络爬虫抓取微信朋友圈的动态(上)和如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)。今天小编带大家通过词云去将其进行可视化,具体的教程如下。1、在Python中做词云,需要用到wordcloud库和jieba分词库,没有安装的伙伴可以直接pip安装即可。2、之后你可能还需要
分类:
编程语言 时间:
2018-05-16 15:17:44
阅读次数:
261
环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库,能够将文档根据TF IDF, LDA, LSI 等模型转化成向量模式,gensim还实现了word2vec功能 ...
分类:
其他好文 时间:
2018-05-15 20:59:30
阅读次数:
6067