Hadoop 的优势Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分
布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发执行处理海量数据的应用程序。它主要有下面几个长处:1.高可靠性。Hadoop
按位存储和处理数据的能力值得人们信赖。2.高...
分类:
其他好文 时间:
2014-06-09 15:48:27
阅读次数:
201
使用sqoop将MySQL数据库中的数据导入Hbase
前提:安装好 sqoop、hbase。
下载jbdc驱动:mysql-connector-java-5.1.10.jar
将 mysql-connector-java-5.1.10.jar 复制到 /usr/lib/sqoop/lib/ 下
MySQL导入HBase命令:
sqoop import --connect j...
分类:
数据库 时间:
2014-06-08 08:23:30
阅读次数:
408
总看一些书介绍数据库方面的周边技巧,有点腻。近期买了《海量数据库解决方式》这本书来看,已经读完了,在内容方面安排还是比較有特色,内容既有国外大作那种功底知识介绍,又有国内书籍那种周边技巧介绍,感觉出不一样的风格。尽管书的题目是海量数据库解决方式,可是读完后我丝毫感觉不到海量的思想,很多其它是数据库....
分类:
数据库 时间:
2014-06-08 00:24:37
阅读次数:
215
一、大型网站系统特点 (1)高并发、大流量:PV量巨大 (2)高可用:7*24小时不间断服务
(3)海量数据:文件数目分分钟xxTB (4)用户分布广泛,网络情况复杂:网络运营商 (5)安全环境恶劣:黑客的攻击
(6)需求快速变更,发布频繁:快速适应市场,满足用户需求 (7)渐进式发展...
分类:
Web程序 时间:
2014-06-07 16:58:07
阅读次数:
305
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。
目 录 [ - ]
前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划
前言
hbase是从 hadoop中分离出来的apache顶级开源项目。由...
分类:
其他好文 时间:
2014-06-05 08:43:04
阅读次数:
275
我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。...
分类:
其他好文 时间:
2014-06-05 01:54:15
阅读次数:
220
1. 数据统计的需求
互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。
网站站点统计工具无外乎有以下一些功能:
1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。
2)IP来源信息统计:记录各个来源IP下的访问PV...
分类:
其他好文 时间:
2014-06-03 01:33:36
阅读次数:
226
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库
1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319
2. HBase...
分类:
其他好文 时间:
2014-06-02 10:33:40
阅读次数:
277
最近在给客户整一个财务报表,用的nopi生成excel,客户那每个月的数据大概有30W条,生成的excel约200张,在我们公司服务器上跑起来妥妥的,到客户的服务器上就完蛋了,跑着跑着就崩溃掉了,无力吐槽,万万没想到啊。总之又加了好几天班才解决问题。大概如下,望各位童鞋注意1.查询所需要处理的数据尽...
分类:
其他好文 时间:
2014-06-01 11:36:46
阅读次数:
283
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409