码迷,mamicode.com
首页 >  
搜索关键字:数据挖掘    ( 2538个结果
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图...
分类:编程语言   时间:2015-02-03 10:43:59    阅读次数:241
斯坦福机器学习公开课---1.机器学习简单介绍
斯坦福机器学习公开课---1. 机器学习简单介绍 1.1  介绍 机器学习流行原因--- 1)      由人工智能AI发展来的一个领域 2)      是计算机需要开发的一项新的能力,涉及工业和基础学科中的很多内容。 应用学习算法,如设计自主机器人,计算生物学和其他被机器学习影响的领域。 1.2  机器学习应用 1)        数据挖掘 网站点击流数据、电子医疗记录、计算生物...
分类:其他好文   时间:2015-02-02 21:38:06    阅读次数:1210
Spark下的FP-Growth和Apriori(频繁项集挖掘并行化算法)
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:编程语言   时间:2015-02-01 13:33:53    阅读次数:310
K-means矢量量化算法介绍
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。matlab中有kmeans聚类算法的函数可以调用,如[ldx,C,su...
分类:编程语言   时间:2015-01-31 21:46:31    阅读次数:290
数据预处理
数据预处理章节,整理于《数据挖掘·概念与技术》第三章,如有错误,请指正,谢谢~1、概述 数据清理可以去除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储,如数据仓库。数据规约可以通过如聚集,删除冗余特征或聚类降低数据的规模。数据变换(如规约化)可以把数据压缩到较小的....
分类:其他好文   时间:2015-01-31 15:59:47    阅读次数:238
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱__转载
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使...
分类:编程语言   时间:2015-01-31 07:05:41    阅读次数:327
链接挖掘算法之PageRank算法和HITS算法
参考资料:http://blog.csdn.net/hguisu/article/details/7996185 更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 链接分析 在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的。具体是怎么做呢,继续往下看。 PageRank...
分类:编程语言   时间:2015-01-30 22:47:44    阅读次数:580
sogou 广告推荐研究组 和 HTC 笔试
笔试: 主要考察智力和数据挖掘题目表示对数据挖掘的算法基本不了解。。1)智力题目1. 小白鼠,饮料,检测有毒饮料问题?http://www.cnblogs.com/purejade/2. 立方体空间问题?3. 饮料瓶换饮料问题?最少需要多少瓶饮料? 逆向思维。4. 无监督学习算法和监督学习算法区别,...
分类:其他好文   时间:2015-01-30 19:27:16    阅读次数:139
FP-Tree频繁模式树算法
参考资料:http://blog.csdn.net/sealyao/article/details/6460578 更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 介绍 FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,FP...
分类:编程语言   时间:2015-01-29 09:40:29    阅读次数:534
定性归纳(1)
从数据分析角度出发,数据挖掘可以分为两种类型:描述型数据挖掘和预测性数据挖掘。前者是以简洁概述的方式表达数据中的存在一些有意义的性质;而后者则通过对所提供数据集应用特定的方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。描述型数据挖掘又称为概念描述(concept desc...
分类:其他好文   时间:2015-01-28 00:47:13    阅读次数:243
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!