一、引言: 最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧。项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了。所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家。二、安全架构 大数.....
分类:
其他好文 时间:
2014-06-27 21:45:11
阅读次数:
229
前一篇的问题解决了,是 hbase 下面lib 包的jar问题,之前写MR的时候加错了包,替换掉了原来的包后出现另一问题:@ubuntu:/home/hadoop/hbase-0.94.6-cdh4.5.0/bin$ ./start-hbase.sh starting master, logging...
分类:
编程语言 时间:
2014-06-26 21:41:53
阅读次数:
829
大数据可谓是最近几年最火热的一个科技概念。业界对大数据的数据源场景定义,是要么不小于100TB,要么来自于超高速的数据流,要么年增速大于60%。且有四个V的说法:分别是体量(Volume)、复杂(Variety)、速度(Velocity)、真实(Veracity)。而大数据真正对整个行业产生震憾影响...
分类:
其他好文 时间:
2014-06-26 18:46:06
阅读次数:
256
因为工作当中遇到要处理大数据的excel的玩意,最多的有几十万行。用perl的方式试试,看看效果如何。ppm install OLE::Storage_Lite #如果不安装这个,后面两个安装不了 ppm install Spreadsheet::ParseExcelppm install Spre...
分类:
其他好文 时间:
2014-06-25 12:41:02
阅读次数:
242
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些。具体环境配置不是太复杂,具体可以看https://githu...
分类:
其他好文 时间:
2014-06-25 11:44:47
阅读次数:
185
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。...
分类:
其他好文 时间:
2014-06-25 10:56:38
阅读次数:
355
问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:
其他好文 时间:
2014-06-25 09:46:57
阅读次数:
329
雾计算(Fog Computing)是云计算(Cloud Computing)的延伸概念,由思科(Cisco)首创。这个因“云”而“雾”的命名源自“雾是更贴近地面的云”这一名句。
雾计算和云计算一样,十分形象。云在天空飘浮,高高在上,遥不可及,刻意抽象;而雾却现实可及,贴近地面,就在你我身边。雾计算并非由性能强大的服务器组成,而是由性能较弱、更为分散的各类功能计算机组成,渗入工厂、汽车、电器...
分类:
其他好文 时间:
2014-06-25 07:21:21
阅读次数:
257
packagecom.smilezl.learn.CalWord;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hado..
分类:
其他好文 时间:
2014-06-25 06:28:59
阅读次数:
242