搜索关键字：大数据 spark，搜索到18881个结果！码迷,mamicode.com！

Spark on Yarn遇到的几个问题

1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Application日志的查看，只能通过Yarn的yarn logs命令实现。在部署和运行Spark Application的过程中，如果不注意一些小的细节，也许会导致一些问题的出现。 2 防火墙部署好Spark...

分类：其他好文时间：2014-08-04 14:23:27 阅读次数：297

使用红黑树查找最小n个数，适合处理大数据

使用STL容器 multiset 代码： #include #include #include using namespace std; typedef multiset > intSet; typedef multiset >::iterator intIter; void findMaxNum(const vector &data,int k){ intSet Max; ...

分类：其他好文时间：2014-08-04 14:20:17 阅读次数：197

直销银行：城商行展开渠道反击

自银行诞生以来，从物理网点到网上银行再到现在的手机终端和新型网络平台，渠道的演进从没有影响其重要性。甚至，在大数据时代，渠道对于银行来说除了承担对接客户、吸引客户的作用外，还被赋予了信息搜集的作用，直接关系未来银行的服务和风控能力。在物理网点时代，拥有压倒数量的国有大型银行毫无悬念的成为了我...

分类：其他好文时间：2014-08-04 10:56:07 阅读次数：184

中科燕园GIS外包案例之11---机场工程地理信息系统EGIS

对于大型机场建设工程，无论工程建设过程中，还是工程建设完成后，进入运行和维护阶段，必定要产生和使用到大量的各式各样的信息资料，包括工程项目过程管理控制类文档，工程图档，电子表格，工程技术性文档，各种图像，视频信息等。这些工程建设相关的信息资料，被称为“工程内容”，其特点是数据量特大，数据格式种类多。...

分类：其他好文时间：2014-08-04 10:40:06 阅读次数：268

scala eclipse sbt 应用程序开发

在Eclipse里利用Sbt构建开发Scala程序的一般步骤，并用实例讲解了整个流程。...

分类：系统相关时间：2014-08-04 02:03:06 阅读次数：476

Interlij 13编译Spark程序生成jar包

1、创建项目sp create new project->scala->NOT SBT->next->设置项目名称'sp' 2、导入相关jar包 File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK 按照类似的方法导入scala-compiler.jar,...

分类：其他好文时间：2014-08-03 20:39:35 阅读次数：262

实现2个超大数的加法运算

一道笔试题~实现2个超大数据的加法运算，这2个超大数，意思就是long也装不下的数，就顶大概100位吧。这道题其实看上去很简单，但是实际上涉及到的知识点还是很多的，非常考验一个人的程序设计能力和对API的熟悉程度。思路很简单，这么大的数，long都存不下，那只能存在String中了，然后将每个数字取出，放到数组，由最末位开始计算，算加法，判断是否进位，进位则前位+1，若超过长度，则copy到新的数...

分类：其他好文时间：2014-08-03 18:06:27 阅读次数：260

【翻译自mos文章】oracle数据库的最大数据容量限制和表空间的最大数据容量限制

oracle数据库的最大数据容量限制和表空间的最大数据容量限制...

分类：数据库时间：2014-08-03 18:03:05 阅读次数：263

Apache Crunch的设计 (上)

Apache Crunch是FlumeJava的实现，为不太方便直接开发和使用的MapReduce程序，开发一套MR流水线，具备数据表示模型，提供基础原语和高级原语，根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看，Crunch提供的许多计算原语，可以在Spark、Hive、Pig等地方找到很多相似之处，而本身的数据读写，序列化处理，分组、排序、聚合的实现，类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...

分类：其他好文时间：2014-08-03 18:02:06 阅读次数：267

java面试(2)--大数据相关

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文...

分类：编程语言时间：2014-08-03 17:33:25 阅读次数：345

共18881条上一页 1 ... 1828 1829 1830 1831 1832 ... 1889 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)