python数据挖掘领域工具包 - wentingtu -
博客园python数据挖掘领域工具包原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy...
分类:
编程语言 时间:
2014-06-11 13:27:30
阅读次数:
481
算法描述
K-means算法是一种被广泛使用的基于划分的聚类算法,目的是将n个对象会分成k个簇。算法的具体描述如下:随机选取k个对象作为簇中心;Do
计算所有对象到这k个簇中心的距离,将距离最近的归入相应的簇; 重新计算每个簇的中心; 计算准则...
分类:
其他好文 时间:
2014-06-11 10:37:42
阅读次数:
192
摘要:近日,Robert
Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse
Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,11.3万个恐怖事件等。【编者按】在数据爆发式增长的逼迫下,当下数据分析能力已得到长足的发展,机器学习...
分类:
系统相关 时间:
2014-06-11 09:25:52
阅读次数:
717
php-数据分析 余弦相似度实现
<?php
/**
* 数据分析引擎
* 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。
* 求出分析向量与基准向量的余弦值
* @author yu.guo@okhqb.com
*/...
分类:
Web程序 时间:
2014-06-08 17:33:51
阅读次数:
210
最近的一些有趣链接的分享,包括科学,设计,机器学习等多个方面的。
例如:
1.在另一个星球上打印人类
2.偷听到外星人的星际通信
3.Yann LeCun在reddit上的问答
4.卖萌的水果
......
分类:
其他好文 时间:
2014-06-08 15:12:54
阅读次数:
262
对于诸多行业客户,在平时工作实践中,会产生大量的财务数据、交易数据,以及基于这些数据的计算过程和结果。如何将此类数据的采集、编辑、加工、汇总、整理、存储、产生分析报告,得到有效信息,工作量极大,人工成本昂贵,并且繁琐,存在风险。如果客户的工作报告生成系统为人工制作,操作风险会比较高,数据需人工采集编辑,未来产品数量和数据爆发式增长,现有制作报告人力会面临制作时效较长、缺失系统管理、无法有效完成报告查询定位等风险,间接影响客户服务体验。基于此,构建一个行业客户工作报告生成配套管理系统,从报告的出生到接触到最终...
分类:
其他好文 时间:
2014-06-08 15:07:56
阅读次数:
215
决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的...
分类:
其他好文 时间:
2014-06-08 14:55:35
阅读次数:
254
之前写过决策树的一篇blog。
这几天看数据挖掘导论发掘一些新的东西,记录下来。
增加了过拟合,剪枝,即其他纯度计算方法等内容。...
分类:
其他好文 时间:
2014-06-08 03:12:07
阅读次数:
269
商宝商宝是基于微博移动的社交购物平台,通过商宝打通微博等社交平台商品展示、粉丝营销、订单支付、数据分析等环节,商宝可提供丰富的营销工具和活动插件。商宝展示的商品信息可以分享到各个社交网络的信息流中,实现商品的快速传播和售卖,使用商宝的商家仅需在商宝管理后台统一管理商品营销和订单即可。产品简介商宝,由...
分类:
移动开发 时间:
2014-06-08 00:38:15
阅读次数:
228
本文介绍了朴素贝叶斯分类方法,还以文本分类为例,给出了一个具体应用的例子。
分类:
其他好文 时间:
2014-06-07 23:31:16
阅读次数:
469