节选自《大数据日知录:架构与算法》十四章,书籍目录在此 对于海量待挖掘数据,在分布式计算环境下,首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说,这个问题解决起来往往比较直观,因为记录之间独立无关联,所以对数据切分算法没有特别约束,只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性,如果数据分片不合理,不仅会造成机器之间负载不均衡,还会大量增加机器之...
分类:
数据库 时间:
2014-09-20 08:51:47
阅读次数:
401
shell的命令行参数-bash-4.2$ cat test1.sh#!/bin/shecho "$0 "echo "$1 "echo "$2 "-bash-4.2$ ./test1.sh a b c./test1.sh a b -bash-4.2$ 显示所有命令行参数-bash-4.2$ cat test1.sh#!/bin/shuntil [ -z "$1" ]do echo...
分类:
系统相关 时间:
2014-09-19 12:10:35
阅读次数:
263
1.WebService简介WebService是一种革命性的分布式计算技术,本质上就是网络上可用的API,可以直接在网络环境调用的方法。WebService常用的框架有axis、xfire、cxf等。WebService发布后,其服务是封装在一个wsdl(Web Services Descript...
分类:
Web程序 时间:
2014-09-18 20:17:34
阅读次数:
313
pwd显示当前目录,ls查看目录下的-bash-4.2$ pwd/home/myhaspl-bash-4.2$ lsabc hadoop-2.4.1 mydoclist mypylst mypylsts numpyabd hadoop-2.4.1-src.tar.gz myl2 mypylst1 myrun pyp...
分类:
系统相关 时间:
2014-09-18 18:59:44
阅读次数:
275
目录:~表示当前用户的主目录.表示当前目录..表示上级目录链接文件可用不同的文件名引用同一个数据或程序,为硬链接在同一物理文件系统中,创建硬链接-bash-4.2$ find ~ -name "*.py">mypylistls -la 表示以长格式的形式查看当前目录下所有文件,包括隐藏文件,各字段含义如下: 7个段分别是:文件属性:drwxr-xr-x文件硬链接数或目录子目录数:3 (一个空目录...
分类:
系统相关 时间:
2014-09-18 09:48:33
阅读次数:
400
1.云计算是对(D)技术的发展与运用A.并行计算B网格计算C分布式计算D三个选项都是2.IBM在2007年11月退出了“改进游戏规则”的(A)计算平台,为客户带来即买即用的云计算平台。A.蓝云B.蓝天C.ARUZED.EC23.微软于2008年10月推出云计算操作系统是(C)A.GoogleAppEngineB.蓝云C.A..
分类:
其他好文 时间:
2014-09-18 03:14:54
阅读次数:
416
让进程在后台运行,执行命令后立即返回,可以继续执行其它命令,在命令行最后加上“&”bash-4.2$ find ~ -name doc &[1] 5453bash-4.2$ /home/myhaspl/hadoop-2.4.1/share/doc/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc/home/myhaspl/pypy-2.3.1-...
分类:
系统相关 时间:
2014-09-16 12:46:30
阅读次数:
344
以centos为例1、当前用户$表示普通用户状态,#表示超级用户状态-bash-4.2$ -bash-4.2$ su密码:[root@localhost myhaspl]# 2、命令基础命令名 [命令选项] [命令参数]比如:bash-4.2$ lshadoop-2.4.1 hadoop-2.4.1-src.tar.gz hadoop-2.4.1.tar.gz numpy pypy-2.3...
分类:
系统相关 时间:
2014-09-16 09:18:20
阅读次数:
322
随着项目经验的增长笔者对分布式计算的了解是越来越深入,那么接下来笔者就和大家浅谈下分布式系统的特点吧,可以这样理解,分布式系统是将多个子任务分布在不同的物理机上并行工作。是以空间换时间并行计算来提高程序的可靠性和性能。分布式系统的高性能计算属于MIMD的范畴领域。它是按不同的业务分配不同的节点(单点...
分类:
其他好文 时间:
2014-09-15 15:54:39
阅读次数:
249
今天的算法课上,看到一篇寓言故事,讲述的是邱比郑南问题。里面便捷的解决方案很像时下流行的分布式计算,利用大数量的cpu和内存,去并行计算完成海量的任务。基本理论是“空间换时间” 关于”空间换时间“这个我想了很多,特此为记。 在计算机世界最典型的“空换时”该是internet网络的出现。大量的...
分类:
其他好文 时间:
2014-09-10 19:11:40
阅读次数:
255