码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
NLP自然语言处理
老实来讲这课我一头雾水满脑袋问号 import numpy as np from collections import Counter counttime = 0 #统计训练语料:spam 和 ham 各自评论总数,单词频率 def seperate(filename): hamcnt = Coun ...
分类:编程语言   时间:2020-11-23 12:07:30    阅读次数:7
Hadoop使用实例
1.词频统计 a.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 b.编写map与reduce函数 c.本地测试map和reduce d.将文本数据上传到HDFS上 e.用hadoop streaming提交任务 f.查看运行结果 g.计算结果取回本地 ...
分类:其他好文   时间:2020-11-07 16:36:45    阅读次数:33
怎么用Python画出好看的词云图?
怎么用Python画出好看的词云图?点击上方“Python读数”,选择“星标”公众号重磅干货,第一时间送达相信很多人在第一眼看到下面这些图时,都会被其牛逼的视觉效果所吸引,这篇文章就教大家怎么用Python画出这种图。前期准备上面的这种图叫做词云图,主要用途是将文本数据中出现频率较高的关键词以可视化的形式展现出来,使人一眼就可以领略文本数据的主要表达意思。词云图中,词的大小代表了其词频,越大的字代
分类:编程语言   时间:2020-09-11 15:52:36    阅读次数:39
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为T ...
分类:其他好文   时间:2020-07-26 01:56:59    阅读次数:77
获取一篇文章中的单词频次(出现次数)
string text = @"var query = from info in infoList where info.AuditFlag == null || info.AuditFlag == false join emp in empList on info.SaleMan equals e ...
分类:其他好文   时间:2020-07-18 13:37:42    阅读次数:73
Python常用功能函数系列总结(三)
本节目录 常用函数一:词频统计 常用函数二:word2vec 常用函数三:doc2vec 常用函数四:LDA主题分析 常用函数一:词频统计 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description ...
分类:编程语言   时间:2020-07-05 22:59:55    阅读次数:75
基于COCA词频表的文本词汇分布测试工具v0.2
update: 简单整理了一下代码的组织。 处理的单词封装成类,单词的修正,信息的显示都作为其内的方法。 写得还比较糙,工具本身可以封装,还有对于单词的变形基本没什么处理,以后有时间再改。 项目托管到github上了。https://github.com/MorpheusDong/TextVocab ...
分类:其他好文   时间:2020-07-04 17:00:05    阅读次数:49
大数据分析:微信推文爬取与分析(词频词云分析)
首先先对《叮咚!院“十佳”优秀经管青年组团出道,快来打call~》这篇微信文章分析,查看网页源代码可以发现,整篇文章的文字部分以层次关系分别在<div id = “js_article”> --> <div class = “rich_media_inner”> --> <div id = “pag ...
分类:微信   时间:2020-07-04 16:57:55    阅读次数:174
Python常用功能函数系列(一)
本节目录 常用函数一:获取指定文件夹内所有文件 常用函数二:文本分词 常用函数三:词频统计 常用函数四:数据去重 写在前面 写代码也有很长时间了,总觉得应该做点什么有价值的事情,写代码初始阶段觉得做更多的项目,积累更多的经验是自己应该做的事情,这样可以使自己短时间内技术水平获得较大的提升。随着代码量 ...
分类:编程语言   时间:2020-07-04 01:44:15    阅读次数:69
Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云
1.jieba分词与词性标注 思路: (1)利用pandas读取csv文件中的酒店客户评论,并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果 (2)利用jieba分词工具的posseg包,同时实现分词与词性标注 (3)利用停用词表对分词结果进行过滤 (4)将分词结果以20000条为单 ...
分类:编程语言   时间:2020-06-27 20:32:04    阅读次数:125
1120条   上一页 1 2 3 4 5 6 ... 112 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!