搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

阿里巴巴曾鸣：数据时代来临

阿里巴巴集团总参谋长曾鸣大数据最重要的特征不在大小，而在死活。就企业而言，数据的死活决定一切，从数据的管理到数据的运用，数据必须能活起来，开始跑通迭代，才能产生持续价值。互联网将快速颠覆众多的传统行业。这两年，这样的话听多了，多少有些“狼来了”，让人逐渐麻木。可是，不经意间，出租车这个再传统不过的行业，一夜间就发生了巨大的变化，互联网究竟怎样细致而深刻地改变世界，逐渐清晰地展现在了...

分类：其他好文时间：2014-06-03 00:15:27 阅读次数：326

HP Vertica Analytics Platform 评测

1.vertica概念面向数据分析的数据仓库系统解决方案 2.vertica关键特性 Ø 标准的SQL接口：可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境 Ø 高可用：内置的冗余也提升了查询速度 Ø 自动化数据库设计：数据库自动安装、优化、管理 Ø 高级压缩：十多种压缩算法最多可节省90%的空间 Ø 大规模并行处理：运行于低成本的x86型Lin...

分类：其他好文时间：2014-06-02 23:09:24 阅读次数：483

scala 语法要点

前段时间看了下scala做了下笔记，为后续看spark做点准备，笔记内容见图片。...

分类：其他好文时间：2014-06-01 15:35:40 阅读次数：182

普林斯顿公开课算法1-8：并查集快速查找

本节讲的是并查集的第一种实现方法，这种方法查找操作开销很小而合并操作开销比较大。数据结构假设有N个节点，那么该算法的数据结构就是一个包含N个整数的数组id[]。判断操作判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致。合并操作合并节点p和节点q就是将id数组中所有的id[...

分类：其他好文时间：2014-06-01 14:55:21 阅读次数：202

普林斯顿公开课算法1-9：并查集-快速合并

本节讲的是并查集的另外一种实现方法。这种方法的合并操作开销很小，但是查找操作开销很大。数据结构这种算法的数据结构和快速查找方法的数据结构是一样的，也是N个整数组成的数组。数组中每个元素id[i]的含义是指i的上级是id[i]。根节点一个节点的根节点就是id[id[id[...id[i]....]]]，一直循...

分类：其他好文时间：2014-06-01 14:52:52 阅读次数：225

Phoenix——实现向HBase发送标准SQL语句

写在前面一：本文总结基于HBase的SQL查询系统——Salesforce phoenix 写在前面二：环境说明：一、什么是Phoenix 摘自官网： Phoenix是一个提供hbase的sql操作的框架，Phoenix是构建在HBase之上的一个SQL中间层。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JD...

分类：数据库时间：2014-06-01 14:05:11 阅读次数：403

使用python操作elasticsearch实现数据插入分析

前言：例行公事，有些人可能不太了解elasticsearch，下面搜了一段，大家瞅一眼。Elasticsearch是一款分布式搜索引擎，支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎，内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch，还可以通过支..

分类：编程语言时间：2014-06-01 13:47:42 阅读次数：328

使用java api操作Hadoop文件

1. 概述2. 文件操作2.1上传本地文件到hadoop fs2.2 在hadoop fs中新建文件，并写入2.3 删除hadoop fs上的文件2.4读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件4. 参考资料接代码下载. 概述hado...

分类：编程语言时间：2014-06-01 12:03:51 阅读次数：364

crontab中运行newLISP脚本的环境变量设置

今天遇到一个问题，在终端里运行newLISP脚本，一切正常，移动到crontab中就不行。即便crontab -e命令运行在同一个用户下，还是有问题。由于newLISP脚本要用到hive和hadoop，估计是环境变量的问题。所以先用newLISP shell运行(env)命令，将当前环境变量记录到文件evn.lsp中。然后在newLISP脚本中加载之。下面是env.lsp文件部分内容：(set '...

分类：其他好文时间：2014-06-01 10:26:57 阅读次数：330

Spark 1.0.0 横空出世 Spark on yarn 部署(hadoop 2.4)

就在昨天，北京时间5月30日20点多。Spark 1.0.0终于发布了：Spark 1.0.0 released 根据官网描述，Spark 1.0.0支持SQL编写：Spark SQL Programming Guide 个人觉得这个功能对Hive的市场的影响很小，但对Shark冲击很大，就像win7和winXP的关系，自相残杀嘛? 这么着急的发布1.x 版是商业行为还是货真价实的体现，让我们拭目以待吧~~~~ 本文是CSDN-撸大湿原创，如要转载请注明出处，谢谢：http://blog.csdn.net...

分类：其他好文时间：2014-06-01 08:55:43 阅读次数：460

共29965条上一页 1 ... 2953 2954 2955 2956 2957 ... 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)