搜索关键字：数据挖掘，搜索到2538个结果！码迷,mamicode.com！

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）

原文：http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图...

分类：编程语言时间：2015-02-03 10:43:59 阅读次数：241

斯坦福机器学习公开课---1.机器学习简单介绍

斯坦福机器学习公开课---1. 机器学习简单介绍 1.1 介绍机器学习流行原因--- 1) 由人工智能AI发展来的一个领域 2) 是计算机需要开发的一项新的能力，涉及工业和基础学科中的很多内容。应用学习算法，如设计自主机器人，计算生物学和其他被机器学习影响的领域。 1.2 机器学习应用 1) 数据挖掘网站点击流数据、电子医疗记录、计算生物...

分类：其他好文时间：2015-02-02 21:38:06 阅读次数：1210

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域，其中频繁模式的挖掘是关联挖掘的核心和基础，是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写，充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性，充分发挥了FP-Growth。...

分类：编程语言时间：2015-02-01 13:33:53 阅读次数：310

K-means矢量量化算法介绍

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。matlab中有kmeans聚类算法的函数可以调用，如[ldx,C,su...

分类：编程语言时间：2015-01-31 21:46:31 阅读次数：290

数据预处理

数据预处理章节，整理于《数据挖掘·概念与技术》第三章，如有错误，请指正，谢谢~1、概述数据清理可以去除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储，如数据仓库。数据规约可以通过如聚集，删除冗余特征或聚类降低数据的规模。数据变换（如规约化）可以把数据压缩到较小的....

分类：其他好文时间：2015-01-31 15:59:47 阅读次数：238

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱__转载

曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使...

分类：编程语言时间：2015-01-31 07:05:41 阅读次数：327

链接挖掘算法之PageRank算法和HITS算法

参考资料：http://blog.csdn.net/hguisu/article/details/7996185 更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm 链接分析在链接分析中有2个经典的算法，1个是PageRank算法，还有1个是HITS算法，说白了，都是做链接分析的。具体是怎么做呢，继续往下看。 PageRank...

分类：编程语言时间：2015-01-30 22:47:44 阅读次数：580

sogou 广告推荐研究组和 HTC 笔试

笔试：主要考察智力和数据挖掘题目表示对数据挖掘的算法基本不了解。。1）智力题目1. 小白鼠，饮料，检测有毒饮料问题？http://www.cnblogs.com/purejade/2. 立方体空间问题？3. 饮料瓶换饮料问题？最少需要多少瓶饮料？逆向思维。4. 无监督学习算法和监督学习算法区别，...

分类：其他好文时间：2015-01-30 19:27:16 阅读次数：139

FP-Tree频繁模式树算法

参考资料：http://blog.csdn.net/sealyao/article/details/6460578 更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm 介绍 FP-Tree算法全称是FrequentPattern Tree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP...

分类：编程语言时间：2015-01-29 09:40:29 阅读次数：534

定性归纳(1)

从数据分析角度出发，数据挖掘可以分为两种类型：描述型数据挖掘和预测性数据挖掘。前者是以简洁概述的方式表达数据中的存在一些有意义的性质；而后者则通过对所提供数据集应用特定的方法分析所获得的一个或一组数据模型，并将该模型用于预测未来新数据的有关性质。描述型数据挖掘又称为概念描述(concept desc...

分类：其他好文时间：2015-01-28 00:47:13 阅读次数：243

共2538条上一页 1 ... 197 198 199 200 201 ... 254 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)