在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年.....
分类:
其他好文 时间:
2014-07-03 10:43:37
阅读次数:
181
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询...
分类:
其他好文 时间:
2014-07-03 10:19:26
阅读次数:
208
归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等 I ,am, is ,a,an,always 我,啊,了...
分类:
其他好文 时间:
2014-07-02 10:41:28
阅读次数:
267
在聚类中我们经经常使用到EM算法(i.e. Estimation - Maximization)进行參数预计, 在该算法中我们通过函数的凹/凸性,在estimation和maximization两步中迭代地进行參数预计,并保证能够算法收敛,达到局部最优解。PS:为了不在11.11这个吉祥的日子发bl...
分类:
其他好文 时间:
2014-07-02 09:56:51
阅读次数:
234
网络将物联网、传统互联网和移动互联网的数据连接、汇聚在一起形成“大数据”,这些数据经过人类刻意的、针对特意用途的分析产生价值用于决策分析等,计算和分析的平台则是“云计算”,机器学习应该算是“大数据”的获取和分析吧。云计算平台的搭建则借助于虚拟化技术。...
分类:
移动开发 时间:
2014-07-02 09:54:11
阅读次数:
222
相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、D...
分类:
其他好文 时间:
2014-07-01 23:15:24
阅读次数:
388
详细要学习的书籍就是《机器学习实战》Machine Learning in Action,Peter HarringtonWindows下要安装3个文件,各自是;1.Python(因为python不是向下兼容的,所以推荐2.7版本号),网址:http://www.python.org2.numpy(...
分类:
编程语言 时间:
2014-07-01 17:52:50
阅读次数:
441