DomainNameServer监听tcp53和udp53端口。把一种名称解析为另一种名称,字串型名称与数据型名称。解析时把用户提供的名称,查询解析库,得到另外一名称。查询,把解析后的名称返还用户。查询分为两种存储名称与地址对应表格式。文本文件,对大量数据处理难以应付。但在bind中速..
分类:
其他好文 时间:
2014-08-07 07:23:10
阅读次数:
445
Python 访问Facebook (http)...
分类:
编程语言 时间:
2014-08-07 07:15:59
阅读次数:
247
一、Mahout是什么?Mahout是Apache的一个开源项目(http://mahout.apache.org/),提供了机器学习领域的若干经典算法,以便开发人员快速构建机器学习和数据挖掘方面的应用。Mahout是基于Hadoop的。从名称上看也很有意思,Hadoop是一个大象的名字,而Maho...
分类:
其他好文 时间:
2014-08-07 03:04:39
阅读次数:
476
一、SpringBatch简介
Spring Batch是一个轻量级的批处理框架, 可以用于企业级海量数据处理, 它提供以下技术解决方案:
1. 定时批处理
2. 大规模并行处理
3. 企业消息驱动处理
二、SpringBatch结构
Spring Batch由应用层、核心层、基础架构层等组成:
1. 应用层: 包含所有的批处理作业,...
分类:
编程语言 时间:
2014-08-06 23:01:42
阅读次数:
477
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战:
并行编程问题;为了将应用并行化,需要并行编程模型的支撑。
容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。
多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。
结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载,于是就出现了各种各样专用的编程模型:
...
分类:
其他好文 时间:
2014-08-06 19:28:12
阅读次数:
285
1. VoltDB是什么?
->VoltDB是一家新型关系型分布式内存数据库管理系统,以解决OLTP为初衷,正在不断增加处理OLAP,提供BI的功能。VoltDB与传统数据库(如DB2,Oracle,MySQL等)最大的不同点就是,VoltDB把全部数据放在内存里,并且可以scale out,运行在一个集群上,集群上的每个节点都可以执行部分数据处理任务。
VoltDB官网:http://vol...
分类:
数据库 时间:
2014-08-06 04:12:20
阅读次数:
484
聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部个对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。 聚类技术一方面本身就是一种...
分类:
其他好文 时间:
2014-08-06 01:52:50
阅读次数:
203
一、关联规则中的频繁模式 关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出:【频繁模式】:Frequent Pattern,即多次重复出现的模式和并发关系(Cooccurrence Relationships)....
分类:
其他好文 时间:
2014-08-06 01:34:20
阅读次数:
261
1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。2、算法思想实际上,...
分类:
其他好文 时间:
2014-08-05 22:28:20
阅读次数:
357
MM物料管理是SAP R/3系统的一个模块,SAP在标准软件系统市场中处于领先地位。由于使用先进的开发技术,SAP能够为业务的各个方面提供数据处理的解决方案。物料管理模块支持日常发生的业务处理功能和过程。几乎没有一个领域具有这样一个具有广泛应用范围和满足需求的标准软件包,这来自于特殊的工业需求、.....
分类:
其他好文 时间:
2014-08-05 14:03:49
阅读次数:
193