HDinsight Storm概述
什么是Storm?
Apache Storm是一个分布式,容错,开放源码的计算系统,让你来处理数据的实时。Storm解决方案还可以提供有保证的处理的数据,与重试未成功处理的第一次数据的能力。...
分类:
其他好文 时间:
2014-12-16 11:44:03
阅读次数:
244
一. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。
public class DataCount {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job =...
分类:
其他好文 时间:
2014-12-15 23:43:24
阅读次数:
447
可通过部署一对主/备NameNode实现NameNode高可用性(HA),主/备NN都能访问edits的WAL,因此将edtis放置在共享存储设备上,使用NFS实现这种共享存储。主/备NN可配置为手动或自动故障切换模式,默认为手动故障切换模式。通常来说,次NN会同时承担备NN的角色,由于NN在内存中的元数据大小限制,可以使用NN联盟,由一组各自独立的NN组成,每个NN负责管理目录结构的不同部分,N...
分类:
其他好文 时间:
2014-12-15 09:01:54
阅读次数:
144
WCF Windows Communication Foundation 分布式通信框架。WCF是对现有分布式通信技术的整合。是各种分布式计算的集大成者。主要整合技术如下图: WCF的服务不能孤立的存在,需要寄宿于一个运行着的进程中,我们把承载WCF服务的进程称为宿主,为服务指定的宿主的...
分类:
其他好文 时间:
2014-12-14 00:34:25
阅读次数:
264
MapReduce是一种分布式计算模型。由Map和reduce两个阶段组成,用户只需要实现Map()和Reduce()两个函数即可实现分布式计算。这两个函数的形参是key,value对,表示函数的输入信息。执行步骤:1. map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文件...
分类:
其他好文 时间:
2014-12-12 22:02:04
阅读次数:
186
朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算。本文详述了朴素贝叶斯分类的统计学原理,并在文本分类中...
分类:
编程语言 时间:
2014-12-12 20:56:48
阅读次数:
1004
Map/Reduce是一个聚合工具。比如SQL和mongodb的group(by),countdistinct等都是聚合命令。
Map/Reduce其实是一个分布式计算的思想的实现的软件框架。就是你遵循这个框架的规范,编写上层代码可以实现你的分布式计算,并能把所有计算结果聚合到一起得到最终一个简单的结果。基于Map/reduce写出来的应用能运行在上千台服务器组成的集群上,并以一种可靠的容错...
分类:
其他好文 时间:
2014-12-11 12:29:12
阅读次数:
271
问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用.
答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等算法(出自丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 山东理工大学学报 2006年11月)。除此以外还有老师课件上提到的聚类检测,决策树方法等。
以下对于一...
分类:
其他好文 时间:
2014-12-11 00:24:07
阅读次数:
265
讲师:林学练 林学练,男,1978年2月生,汉,硕士,北京航空航天大学计算机系讲师。主要从事服务计算、网格计算、对等计算等分布式计算技术的研究。在服务计算方面,作为负责人或骨干成员参加的项目有863课题“网络环境的系统软件核心技术及运行平台”,国家科技攻关计划项目“基于XML的电子商务互操作协...
分类:
其他好文 时间:
2014-12-09 00:16:33
阅读次数:
372
众所周知,目前大数据时代数据分析处理最常提到的是两个框架,一是Hadoop,另一个无疑便是Spark,Spark基于mapreduce算法实现的分布式计算,虽然拥有着Hadoop的优点,但是关于这个架构网上的解释并不全面,此次王家林老师带我们从技术的角度去探索一下Spark。第二代大数据技术Sp.....
分类:
其他好文 时间:
2014-12-04 21:12:26
阅读次数:
201