前言
今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件加入,支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。以下是几个主要的改进点...
分类:
其他好文 时间:
2014-06-03 00:43:41
阅读次数:
269
题目链接:
http://acm.hdu.edu.cn/showproblem.php?pid=2102
题目:
A计划
Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)
Total Submission(s): 8731 Accepted Submis...
分类:
其他好文 时间:
2014-06-02 23:29:29
阅读次数:
207
1.vertica概念
面向数据分析的数据仓库系统解决方案
2.vertica关键特性
Ø 标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境
Ø 高可用:内置的冗余也提升了查询速度
Ø 自动化数据库设计:数据库自动安装、优化、管理
Ø 高级压缩:十多种压缩算法最多可节省90%的空间
Ø 大规模并行处理:运行于低成本的x86型Lin...
分类:
其他好文 时间:
2014-06-02 23:09:24
阅读次数:
483
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2089题意:给出一个区间[l,r],求满足一个数的数位上没有连着62这个数字串的条件的个数。解法:数位DP的入门题。
1 #include 2 #include 3 #include 4 #include...
分类:
其他好文 时间:
2014-06-01 12:27:14
阅读次数:
229
1. 概述2. 文件操作2.1上传本地文件到hadoop fs2.2 在hadoop
fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3
读取某个目录下的所有文件4. 参考资料接代码下载. 概述hado...
分类:
编程语言 时间:
2014-06-01 12:03:51
阅读次数:
364
总的来说,正确的做法是优先通过配置文件,再在具体机器上进行相应进程的启动/停止操作。
网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置。
总的来说添加/删除DataNode和TaskTracker的方法非常相似,只是操作的配置项和使用的命令有微小差异。
1. DataNode
1.0 配置文件
在namenode下修改配置文件conf/mapred-site.xml。
关键参数dfs.hosts和dfs.hosts.exclude。
注意:不同hado...
分类:
其他好文 时间:
2014-06-01 10:45:08
阅读次数:
340
http://acm.hdu.edu.cn/showproblem.php?pid=1429
第一次接触搜索+状态压缩 看了大神的题解 勉强把题目弄懂了。
用二进制来表示手头的钥匙有哪些,100表示有第三把钥匙,111表示有第三、二、一把,搜索下一点时,如果该点为钥匙点,则可采用|运算来
模拟拾取,显然0001 | 1000 = 1001,同理,当为相应的门时采用&运算来模拟开启,例...
分类:
其他好文 时间:
2014-06-01 10:35:21
阅读次数:
256
今天遇到一个问题,在终端里运行newLISP脚本,一切正常,移动到crontab中就不行。即便crontab -e命令运行在同一个用户下,还是有问题。由于newLISP脚本要用到hive和hadoop,估计是环境变量的问题。所以先用newLISP shell运行(env)命令,将当前环境变量记录到文件evn.lsp中。然后在newLISP脚本中加载之。下面是env.lsp文件部分内容:(set '...
分类:
其他好文 时间:
2014-06-01 10:26:57
阅读次数:
330
在Linux/Unix系统中,每个进程都有一个非负整型表示的唯一进程ID。虽然是唯一的,但是进程的ID可以重用。当一个进程终止后,其进程ID就可以再次使用了。大多数Linux/Unix系统采用延迟重用的算法,使得赋予新建进程ID不同于最近终止进程所使用的ID,这主要是为了防止将新进程误认为是使用同一ID的某个已终止的先前进程。本文讨论了Linux/Unix分配进程ID的方法以及源码实现。...
分类:
系统相关 时间:
2014-06-01 08:57:45
阅读次数:
387
就在昨天,北京时间5月30日20点多。Spark 1.0.0终于发布了:Spark 1.0.0 released
根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide
个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛?
这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net...
分类:
其他好文 时间:
2014-06-01 08:55:43
阅读次数:
460