最近学习大数据的处理,由于项目开发的需要,使用一种简单的方式来将Excel中的数据导入到数据库中,开发使用的kettle工具。 kettle工具安装很简单,从官网上下载下来之后,直接解压到制定的盘符下即可(前提是你配置了JAVA的环境变量,path,classpath)。 在WINDOWS环境下双击...
分类:
数据库 时间:
2014-06-15 22:10:06
阅读次数:
412
package com.sogou.hadoop.test;public class Sudoku {/**验证该值是否合法*/ public boolean isValidSudoku(char[][] board,int x,int y){ int row,col; ...
分类:
编程语言 时间:
2014-06-15 00:51:03
阅读次数:
292
近几年,虚拟化浪潮汹涌而至,越来越多的企业意识到虚拟化应用的价值。卡巴斯基技术开发(北京)有限公司副总经理郑启良认为:“随着技术的发展,当前企业在云计算方面的投入已经非常明显,前端移动化、后端虚拟化已经成为企业IT部署未来的发展方向。” 与此同时,虚拟化环境的安全问题也日益突出。病毒感染及传播...
分类:
其他好文 时间:
2014-06-14 23:59:39
阅读次数:
375
本文介绍的 Zookeeper 是以 3.4.5 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的Windows安装和配置.CSD...
我就不长篇大论,举四个例子你看看。1、目下最热最潮最流行的云计算技术的背后是虚拟化和网格技术,而虚拟化和网格技术基本是Linux的天下,目前虚拟化的三大家:Vmware,Xen,Hyper-V中,市场占有率最大的Vmware和Xen都是基于Linux的,Hyper-V的后展后劲还有待观察。2、巨型计...
分类:
系统相关 时间:
2014-06-14 23:08:21
阅读次数:
364
一年前,准备使用mongDb自带的map,reduce功能模拟hadoop,换个思路做一个简易的大数据分拆再结合存储的办法;这个功能可以用于数据日志或者游戏数据之类,进行周期性归纳和按照自己需求重组数据;以下代码实现了将每日数据collecttion:gameLog日期的数据统计出不同的collec...
分类:
数据库 时间:
2014-06-14 22:38:35
阅读次数:
432
Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。
本文将带领你进入Spark的世界,首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出:通用,易用,高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式,交互式,实时查询,迭代...
分类:
其他好文 时间:
2014-06-14 11:57:03
阅读次数:
288
1、pig安装 1)解压,重命名、设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容 fs.default.name=hdfs://hadoop:9000 mapred.job.tracker=hadoop:9001...
分类:
其他好文 时间:
2014-06-14 11:40:40
阅读次数:
205
1 在hadoop上解压缩、重命名、设置环境变量HBASE_HOME,参考hadoop学习系列22 修改文件$HBASE_HOME/conf/hbase-env.sh,修改内容如下export JAVA_HOME=/usr/local/jdkexport HBASE_MANAGES_ZK=true#...
分类:
其他好文 时间:
2014-06-14 11:27:14
阅读次数:
211
1.hadoop的伪分布安装(采用Host-only模式) 1.1 设置ip地址 1.1.1设置宿主机的VirtualBox Host-only Network网路设置 IP地址:192.168.56.1 子网掩码:255.255.255.0 默认网关:不填 ...
分类:
其他好文 时间:
2014-06-14 09:50:02
阅读次数:
207