码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
库函数wordcloud安装的问题
在对python有了一定的了解之后就对python的第三方库产生了十分浓厚的兴趣,因为python的很多功能都是要依靠第三方库函数来实现的,而且在计算机二级刚刚加入的python考试中也有对第三方库的安装和运用有一定的要求,比如Turtle库、jieba库、pyinstaller库、wordclou ...
分类:其他好文   时间:2018-05-29 19:03:38    阅读次数:186
Doc2Vec,Word2Vec文本相似度 初体验。
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:其他好文   时间:2018-05-29 17:47:33    阅读次数:266
Doc2Vec,Word2Vec文本相似度 初体验。
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:其他好文   时间:2018-05-29 17:44:58    阅读次数:404
文本预处理常用操作
这里介绍一下文本预处理中常用的操作: 1.英文统一小写 2.分词 3.去噪 两种方式 (1)去停用词 包括中英文标点符号、以及噪音词,参考附录[1] (2)只保留指定词典中的词 这个词典与任务强相关,通常是当前任务重点关注的特征词 其中,为了保证分词的结果是我们想要的,通常需要调整jieba词典: ...
分类:其他好文   时间:2018-05-29 12:33:14    阅读次数:176
jieba分词以及word2vec词语相似度
去除标点符号,下一步开始文本相似度计算:参考文章:http://www.jb51.net/article/139690.htmfromgensim.modelsimportWord2Vecmodel=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)参数解释:1.
分类:其他好文   时间:2018-05-28 18:28:54    阅读次数:332
去年的京东评论项目
学习数据挖掘挺久了,要找工作啦,把之前的项目留下了,留下源代码 #数据的导入 import pandas as pd inputfile = '../data/huizong.csv' #评论汇总文件outputfile = '../data/meidi_jd.txt' #评论提取后保存路径data ...
分类:其他好文   时间:2018-05-26 23:24:49    阅读次数:437
中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:其他好文   时间:2018-05-25 13:34:32    阅读次数:137
python第三方库自动安装脚本
#python第三方库自动安装脚本,需要在cmd中运行此脚本#BatchInstall.pyimport oslibs = {"numpy","matplotlib","pillow","sklearn","requests",\ "jieba","beautifulsoup4","wheel"," ...
分类:编程语言   时间:2018-05-17 11:41:49    阅读次数:429
如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化展示
大前天我们通过Python网络爬虫对朋友圈的数据进行了抓取,感兴趣的朋友可以点击进行查看,如何利用Python网络爬虫抓取微信朋友圈的动态(上)和如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)。今天小编带大家通过词云去将其进行可视化,具体的教程如下。1、在Python中做词云,需要用到wordcloud库和jieba分词库,没有安装的伙伴可以直接pip安装即可。2、之后你可能还需要
分类:编程语言   时间:2018-05-16 15:17:44    阅读次数:261
【机器学习】使用gensim 的 doc2vec 实现文本相似度检测
环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库,能够将文档根据TF IDF, LDA, LSI 等模型转化成向量模式,gensim还实现了word2vec功能 ...
分类:其他好文   时间:2018-05-15 20:59:30    阅读次数:6067
462条   上一页 1 ... 25 26 27 28 29 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!