码迷,mamicode.com
首页 >  
搜索关键字:文本挖掘    ( 132个结果
文本挖掘之文本聚类(借力打力)
在文本相似度判定中,作者将该算法用于文本聚类中,其核心思想通过比较两个文本向量中元素的相似度,即向量中所含的元素相似个数越多,则两个向量越相似,继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现,本文借鉴数学集合取交集,借用现有组件来实现上述算法功能,继而减少工作量,也具备便捷性...
分类:其他好文   时间:2015-10-25 12:03:30    阅读次数:292
用到的专业词汇
卷积神经网络、nlp(Natural Language Processing 分词这块)、数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vecword2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空...
分类:其他好文   时间:2015-10-19 16:48:46    阅读次数:195
多种贝叶斯模型构建文本分类
当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建、短文本实体抽取以及代码的语义级构件方法研究。常用的数据挖掘功能包括分类、聚类、预测和关联四大模型。本文针对四大模型之一的分类进行讨论。分类算法包括回归、决策树、支持向量机、贝叶斯等,显然,不少涉及机器学习的知识(随后会写些机器学习专...
分类:其他好文   时间:2015-09-29 20:14:57    阅读次数:152
R语言做文本挖掘 Part4文本分类
Part4文本分类Part3文本聚类提到过。与聚类分类的简单差异。那么,我们需要理清训练集的分类,有明白分类的文本;測试集,能够就用训练集来替代。预測集,就是未分类的文本。是分类方法最后的应用实现。1. 数据准备训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理。这里还...
分类:编程语言   时间:2015-09-10 13:05:44    阅读次数:1664
lucene Ngram 划分词语
最近在做一个有关文本挖掘的项目,需要用到Ngram模型已经相对应的向量匹配相似度的技术 Ngram分词的程序 有位网友在问我,想了想写在这里吧,至于那些jar包也很好找,lucene jar ,在百度搜索都能找到 package edu.fjnu.huanghong; import java.io.IOException; import java.io.StringReader; impo...
分类:Web程序   时间:2015-08-29 17:07:35    阅读次数:231
文本挖掘
#library("rJava")library("Rwordseg")library("NLP")library("tm")library(igraph)#setwd("E:\\毕业设计\\")#txt<-read.csv(file="总评论文本.csv",header=T)#txt<-txt[s...
分类:其他好文   时间:2015-07-16 18:13:42    阅读次数:126
借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘
本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。在本篇博客帖中,你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用Rap...
分类:Windows程序   时间:2015-07-15 20:42:02    阅读次数:251
stop words list
参见:http://www.lextek.com/manuals/onix/stopwords1.htmlstop words,称为无意义的词或无效词,在文本挖掘中,作为特征词来讲,没有贡献,这里是onix整理的基本涵盖无效词的列表(429):aaboutaboveacrossafteragaina...
分类:其他好文   时间:2015-04-29 16:39:13    阅读次数:129
打个广告:承接本硕毕业设计和其他外包项目
本人某Top高校硕士毕业,承接本硕毕业设计和其他相关项目。对于硕士方面,本人可以承接自然语言处理,文本挖掘,数据挖掘,主题模型等相关算法。工程类硕士一般应用系统开发均可。本科相关毕设应用系统均可。本人熟悉的语言有C#、Java、C++,主要从事B/S开发。熟悉论文撰写。本信息常年有效。咨询联系QQ:...
分类:其他好文   时间:2015-04-17 13:14:50    阅读次数:165
Hadoop大数据零基础高端实战培训系列配文本挖掘项目
《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:779591710 下载地址: 链接:http://pan.bai...
分类:其他好文   时间:2015-04-01 11:02:36    阅读次数:124
132条   上一页 1 ... 8 9 10 11 12 ... 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!