搜索关键字：spark 大数据 hadoop hive parquet，搜索到33788个结果！码迷,mamicode.com！

hadoop多次格式化后，导致datanode启动不了，怎么办？（伪分布式）

根据当初 hadoop 安装目录下 conf 目录的 core-site.xml 的设置，找到该目录：进入该目录在 data 和 name 文件夹下均有 current 文件夹，和 current 文件夹下有 VERSION 文件主要要做的是使这两个文件中的 namespaceID 相同接下来就是...

分类：其他好文时间：2014-05-09 05:15:30 阅读次数：305

Apache Spark源码走读之6 -- 存储子系统分析

Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，本文尝试分析Spark中存储子系统的构成，并以数据写入和数据读取为例，讲述清楚存储子系统中各部件的交互关系。

分类：其他好文时间：2014-05-09 05:14:32 阅读次数：405

基于HBase的手机数据备份系统

基于HBase实现的手机数据备份系统，实现了手机关键信息的备份，如短信、联系人等。包括服务器端(Server)和客户端(Client) Server运行环境：Hadoop+HBase+Tomcat Client运行环境: Eclipse+Android2.3 ----------------------------------------------------- ...

分类：移动开发时间：2014-05-08 16:07:49 阅读次数：390

Task的执行过程分析

Task的执行过程分析 Task的执行通过Worker启动时生成的Executor实例进行， caseRegisteredExecutor(sparkProperties)=> logInfo("Successfullyregistered with driver") //Make this host instead of hostPort ? executor= newExecuto...

分类：其他好文时间：2014-05-08 16:01:31 阅读次数：667

Hadoop-5、排序（Combiner泛谈）

一、Combiner作用1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：map: (K1, V1) → list(K2, V2)combine: (K2, list(V2)) → list(K2, V2)reduce: (K2, list(V...

分类：其他好文时间：2014-05-08 09:37:49 阅读次数：472

hive 中 union all

hive 中的union all是不能在sql语句的第一层使用的，否则会报Top level UNION is not supported currently 错误；例如如下的方式：select id,name from user where type = 1union allselect id,n...

分类：其他好文时间：2014-05-08 07:17:42 阅读次数：420

《大型网站技术架构》1：概述

参考自《大型网站技术架构》第1~3章 1、大型网站架构演化发展历程（1）初始阶段的网站架构：一台服务器分别作为应用、数据、文件服务器（2）应用服务和数据服务分离：三台服务器分别承担上述三项工作，其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存，文件服务器需要较大的硬盘。（3）使用缓存改善网站性能：分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。（4）使...

分类：Web程序时间：2014-05-08 04:42:48 阅读次数：430

高精度之大数除法

高精度之大数的除法，大数据计算c语言一样强大...

分类：其他好文时间：2014-05-08 04:27:19 阅读次数：281

性能调优

大数据量引起的高并发处理： 1、数据量超过百万时增加集群服务器，比如使查询和操作分别在不同服务器上执行，如果数据量超过千万时这样会增加服务器间相互复制数据的资源开销，这时考虑把数据资源比如用户表根据ID放在不同的数据库集群中。 2、是页面静态化，因为html比jsp更节省资源和性能，考虑将页面做成html返回给客户，比如用freemarker工具 3、缓存技术，集群中采用memcached...

分类：其他好文时间：2014-05-08 04:18:07 阅读次数：361

Pig源码分析: 简析执行计划的生成

本文通过跟代码的方式，分析从输入一批Pig-latin到输出物理执行计划（与launcher引擎有关，一般是MR执行计划，也可以是Spark RDD的执行算子）的整体流程。不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job，而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤（方法和类）。...

分类：其他好文时间：2014-05-08 04:00:42 阅读次数：407

共33788条上一页 1 ... 3364 3365 3366 3367 3368 ... 3379 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)