码迷,mamicode.com
首页 >  
搜索关键字:大数据 spark    ( 18881个结果
Spark on Yarn遇到的几个问题
1 概述     Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。     在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。 2 防火墙     部署好Spark...
分类:其他好文   时间:2014-08-04 14:23:27    阅读次数:297
使用红黑树查找最小n个数,适合处理大数据
使用STL容器 multiset 代码: #include #include #include using namespace std; typedef multiset > intSet; typedef multiset >::iterator intIter; void findMaxNum(const vector &data,int k){ intSet Max; ...
分类:其他好文   时间:2014-08-04 14:20:17    阅读次数:197
直销银行:城商行展开渠道反击
自银行诞生以来,从物理网点到网上银行再到现在的手机终端和新型网络平台,渠道的演进从没有影响其重要性。甚至,在大数据时代,渠道对于银行来说除了承担对接客户、吸引客户的作用外,还被赋予了信息搜集的作用,直接关系未来银行的服务和风控能力。 在物理网点时代,拥有压倒数量的国有大型银行毫无悬念的成为了我...
分类:其他好文   时间:2014-08-04 10:56:07    阅读次数:184
中科燕园GIS外包案例之11---机场工程地理信息系统EGIS
对于大型机场建设工程,无论工程建设过程中,还是工程建设完成后,进入运行和维护阶段,必定要产生和使用到大量的各式各样的信息资料,包括工程项目过程管理控制类文档,工程图档,电子表格,工程技术性文档,各种图像,视频信息等。这些工程建设相关的信息资料,被称为“工程内容”,其特点是数据量特大,数据格式种类多。...
分类:其他好文   时间:2014-08-04 10:40:06    阅读次数:268
scala eclipse sbt 应用程序开发
在Eclipse里利用Sbt构建开发Scala程序的一般步骤,并用实例讲解了整个流程。...
分类:系统相关   时间:2014-08-04 02:03:06    阅读次数:476
Interlij 13编译Spark程序生成jar包
1、创建项目sp create new project->scala->NOT SBT->next->设置项目名称'sp' 2、导入相关jar包 File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK 按照类似的方法导入scala-compiler.jar,...
分类:其他好文   时间:2014-08-03 20:39:35    阅读次数:262
实现2个超大数的加法运算
一道笔试题~实现2个超大数据的加法运算,这2个超大数,意思就是long也装不下的数,就顶大概100位吧。这道题其实看上去很简单,但是实际上涉及到的知识点还是很多的,非常考验一个人的程序设计能力和对API的熟悉程度。思路很简单,这么大的数,long都存不下,那只能存在String中了,然后将每个数字取出,放到数组,由最末位开始计算,算加法,判断是否进位,进位则前位+1,若超过长度,则copy到新的数...
分类:其他好文   时间:2014-08-03 18:06:27    阅读次数:260
【翻译自mos文章】oracle数据库的最大数据容量限制和表空间的最大数据容量限制
oracle数据库的最大数据容量限制和表空间的最大数据容量限制...
分类:数据库   时间:2014-08-03 18:03:05    阅读次数:263
Apache Crunch的设计 (上)
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。 本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:其他好文   时间:2014-08-03 18:02:06    阅读次数:267
java面试(2)--大数据相关
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文...
分类:编程语言   时间:2014-08-03 17:33:25    阅读次数:345
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!