码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop spark-sql    ( 29965个结果
阿里巴巴曾鸣:数据时代来临
阿里巴巴集团总参谋长曾鸣 大数据最重要的特征不在大小,而在死活。就企业而言,数据的死活决定一切,从数据的管理到数据的运用,数据必须能活起来,开始跑通迭代,才能产生持续价值。 互联网将快速颠覆众多的传统行业。这两年,这样的话听多了,多少有些“狼来了”,让人逐渐麻木。可是,不经意间,出租车这个再传统不过的行业,一夜间就发生了巨大的变化,互联网究竟怎样细致而深刻地改变世界,逐渐清晰地展现在了...
分类:其他好文   时间:2014-06-03 00:15:27    阅读次数:326
HP Vertica Analytics Platform 评测
1.vertica概念 面向数据分析的数据仓库系统解决方案 2.vertica关键特性 Ø  标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境 Ø  高可用:内置的冗余也提升了查询速度 Ø  自动化数据库设计:数据库自动安装、优化、管理 Ø  高级压缩:十多种压缩算法最多可节省90%的空间 Ø  大规模并行处理:运行于低成本的x86型Lin...
分类:其他好文   时间:2014-06-02 23:09:24    阅读次数:483
scala 语法要点
前段时间看了下scala做了下笔记,为后续看spark做点准备,笔记内容见图片。...
分类:其他好文   时间:2014-06-01 15:35:40    阅读次数:182
普林斯顿公开课 算法1-8:并查集 快速查找
本节讲的是并查集的第一种实现方法,这种方法查找操作开销很小而合并操作开销比较大。 数据结构 假设有N个节点,那么该算法的数据结构就是一个包含N个整数的数组id[]。 判断操作 判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致。 合并操作 合并节点p和节点q就是将id数组中所有的id[...
分类:其他好文   时间:2014-06-01 14:55:21    阅读次数:202
普林斯顿公开课 算法1-9:并查集-快速合并
本节讲的是并查集的另外一种实现方法。这种方法的合并操作开销很小,但是查找操作开销很大。 数据结构 这种算法的数据结构和快速查找方法的数据结构是一样的,也是N个整数组成的数组。 数组中每个元素id[i]的含义是指i的上级是id[i]。 根节点 一个节点的根节点就是id[id[id[...id[i]....]]],一直循...
分类:其他好文   时间:2014-06-01 14:52:52    阅读次数:225
Phoenix——实现向HBase发送标准SQL语句
写在前面一: 本文总结基于HBase的SQL查询系统——Salesforce phoenix 写在前面二: 环境说明: 一、什么是Phoenix 摘自官网: Phoenix是一个提供hbase的sql操作的框架,Phoenix是构建在HBase之上的一个SQL中间层。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JD...
分类:数据库   时间:2014-06-01 14:05:11    阅读次数:403
使用python操作elasticsearch实现数据插入分析
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:编程语言   时间:2014-06-01 13:47:42    阅读次数:328
使用java api操作Hadoop文件
1. 概述2. 文件操作2.1上传本地文件到hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件4. 参考资料接代码下载. 概述hado...
分类:编程语言   时间:2014-06-01 12:03:51    阅读次数:364
crontab中运行newLISP脚本的环境变量设置
今天遇到一个问题,在终端里运行newLISP脚本,一切正常,移动到crontab中就不行。即便crontab -e命令运行在同一个用户下,还是有问题。由于newLISP脚本要用到hive和hadoop,估计是环境变量的问题。所以先用newLISP shell运行(env)命令,将当前环境变量记录到文件evn.lsp中。然后在newLISP脚本中加载之。下面是env.lsp文件部分内容:(set '...
分类:其他好文   时间:2014-06-01 10:26:57    阅读次数:330
Spark 1.0.0 横空出世 Spark on yarn 部署(hadoop 2.4)
就在昨天,北京时间5月30日20点多。Spark 1.0.0终于发布了:Spark 1.0.0 released 根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide 个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛? 这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~ 本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net...
分类:其他好文   时间:2014-06-01 08:55:43    阅读次数:460
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!