码迷,mamicode.com
首页 >  
搜索关键字:海量数据    ( 1645个结果
hadoop备记
Hadoop 的优势Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发执行处理海量数据的应用程序。它主要有下面几个长处:1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。2.高...
分类:其他好文   时间:2014-06-09 15:48:27    阅读次数:201
使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop、hbase。 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-connector-java-5.1.10.jar 复制到 /usr/lib/sqoop/lib/ 下 MySQL导入HBase命令: sqoop import --connect j...
分类:数据库   时间:2014-06-08 08:23:30    阅读次数:408
《海量数据库解决方式》读后感
总看一些书介绍数据库方面的周边技巧,有点腻。近期买了《海量数据库解决方式》这本书来看,已经读完了,在内容方面安排还是比較有特色,内容既有国外大作那种功底知识介绍,又有国内书籍那种周边技巧介绍,感觉出不一样的风格。尽管书的题目是海量数据库解决方式,可是读完后我丝毫感觉不到海量的思想,很多其它是数据库....
分类:数据库   时间:2014-06-08 00:24:37    阅读次数:215
《大型网站技术架构》读书笔记一:大型网站架构演化
一、大型网站系统特点 (1)高并发、大流量:PV量巨大 (2)高可用:7*24小时不间断服务 (3)海量数据:文件数目分分钟xxTB (4)用户分布广泛,网络情况复杂:网络运营商 (5)安全环境恶劣:黑客的攻击 (6)需求快速变更,发布频繁:快速适应市场,满足用户需求 (7)渐进式发展...
分类:Web程序   时间:2014-06-07 16:58:07    阅读次数:305
淘宝在hbase中的应用和优化
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。 目 录 [ - ] 前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划 前言 hbase是从 hadoop中分离出来的apache顶级开源项目。由...
分类:其他好文   时间:2014-06-05 08:43:04    阅读次数:275
企业邮箱服务优化软件
我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。...
分类:其他好文   时间:2014-06-05 01:54:15    阅读次数:220
Hbase在数据统计中的应用心得
1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。 2)IP来源信息统计:记录各个来源IP下的访问PV...
分类:其他好文   时间:2014-06-03 01:33:36    阅读次数:226
Hadoop Hive与Hbase关系 整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase...
分类:其他好文   时间:2014-06-02 10:33:40    阅读次数:277
处理海量数据时注意的问题
最近在给客户整一个财务报表,用的nopi生成excel,客户那每个月的数据大概有30W条,生成的excel约200张,在我们公司服务器上跑起来妥妥的,到客户的服务器上就完蛋了,跑着跑着就崩溃掉了,无力吐槽,万万没想到啊。总之又加了好几天班才解决问题。大概如下,望各位童鞋注意1.查询所需要处理的数据尽...
分类:其他好文   时间:2014-06-01 11:36:46    阅读次数:283
Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:其他好文   时间:2014-05-30 14:23:07    阅读次数:409
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!