K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
基础练习 阶乘计算
时间限制:1.0s 内存限制:512.0MB
问题描述
输入一个正整数n,输出n!的值。
其中n!=1*2*3*…*n。
算法描述
n!可能很大,而计算机能表示的整数范围有限,需要使用高精度计算的方法。使用一个数组A来表示一个大整数a,A[0]表示a的个位,A[1]表示a的十位,依次类推。
将a乘以一个整数k...
分类:
其他好文 时间:
2014-05-26 05:27:07
阅读次数:
271
上得厅堂,下得厨房,写得代码,翻得围墙,欢迎来到睿不可挡的每日一小练!...
分类:
其他好文 时间:
2014-05-26 05:00:34
阅读次数:
170
FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。...
分类:
其他好文 时间:
2014-05-26 04:12:39
阅读次数:
302
思路:1、排序,取前k个元素;O(NlogN);2、分治,O(n),利用快排的思想;3、用set 维护最小的k个数,O(NlogK),可处理海量数据。...
分类:
其他好文 时间:
2014-05-26 03:38:58
阅读次数:
222
题目:给定一个由参数m,n表示行数和列数而形成的2维表格,以左上为出发点,右下为目的地,每次只能向右走一步,或者向下走一步,算出总共存在多少不同的到达路径。
分析;这个问题的递归属性是很明显的,因为无论向右走还是向下走,到达一个新的位置,这时就变成了在该新位置到达目的地有多少不同的路径。其次,向右走和向下走是不同的路径,最终的结果应该是二者的和。
递归的返回条件:n = 1 或 m = 1, ...
分类:
其他好文 时间:
2014-05-24 21:58:45
阅读次数:
243
让数组中基数位于偶数的前面,用快排的思想解决。...
分类:
其他好文 时间:
2014-05-24 17:10:26
阅读次数:
170
如果是采用MFC工程的话,要实现真彩工具栏是一件简单的事,网上都提供了封装好的类来实现,例如:TrueColorToolBar。可是采用SDK实现真彩工具栏就需要自己去实现,在网络上搜索了很多关于这方面的资料,都没有称心如意的,最后自己一步一步的使用SDK函数来实现这一功能,代码如下:
void CreateToolBar(const HWND hWndParent)
{
RGBTRIPLE ...
分类:
其他好文 时间:
2014-05-24 14:38:00
阅读次数:
249