K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
引言shell,我们经常会用到,以其强大的功能,会帮助我们解决很多棘手的问题。最近遇到一个问题,要跑很多case,如果串行的执行,需要很久。能不能让他们并行起来,但又不能所有case都并行运行呢?,因为所有case同时运行,机器会挂掉的。1,方式1比较直接的一种方式是,维护两个文件队列(*.start和*.stop)分别记录所有case的运行状态,然后根据并发数量来获取和分配资源。代码如下:mul...
分类:
其他好文 时间:
2014-05-26 05:07:22
阅读次数:
262
摘要:
百度地图API的官网上提供了常用坐标转换的示例。但是,一次只能转换一个,真的非常麻烦!!这里结合了官方的示例,自制一个批量转换工具,供大家参考。-------------------------------------------------------------------------....
分类:
其他好文 时间:
2014-05-26 01:58:46
阅读次数:
294
例1: 批量 查询部门号为 "10" 号的并把它们打印出来 . DECLARE TYPE
emp_table_type IS TABLE OF my_emp%ROWTYPE INDEX BY BINARY_INTEGER; v_emp_table
emp_table_type;BEGIN SELE....
分类:
数据库 时间:
2014-05-26 01:26:47
阅读次数:
356
Write by xiaoyang 转载请注明出处 步骤一:创建域 基本配置 1. 输入命令进入配置
2. 输入8进入网络配置 3. 选择要配置的网卡 4. 配置网络地址和DNS服务器 5. 查看网卡信息 6. 配...
分类:
其他好文 时间:
2014-05-26 00:12:42
阅读次数:
376
一切悲剧来源于写的Shell没有好好检查,执行后把开发机的根目录 /usr
目录给删除了,而且是root执行,众所周知,/usr目录里有大量的应用层程序,删除之后导致大量命令无法使用,如 ssh / rz / sz / nc /
wget /yum 等,不夸张地说,当时就要不行了。。好吧,首先想到的...
分类:
其他好文 时间:
2014-05-25 23:41:59
阅读次数:
322
先吐个槽,到目前为止接触的东西也就是些ado.net、select、delete、update、create、临时表的批量操作、及稍微复杂点的几个表之间查询再带几个excel导入导出然后会点前端的js、jquery等,所以在公司目前薪水并不高(能在广州生活下去吧,什么买车买房的想都别想),拿自己.....
分类:
其他好文 时间:
2014-05-25 23:36:30
阅读次数:
298
using System;using System.Collections.Generic;using
System.Text;using Word = Microsoft.Office.Interop.Word;namespace ELO.BLL{ /* *
Descrip...
分类:
其他好文 时间:
2014-05-25 23:20:06
阅读次数:
420
正则表达式是基于样式匹配的进行文本处理,透过一些特殊符号的辅助,可以达到搜寻、删除、取代某特定的字符串。
grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。
..
分类:
其他好文 时间:
2014-05-24 16:58:02
阅读次数:
270