项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:
其他好文 时间:
2014-07-07 10:43:16
阅读次数:
1186
Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低...
分类:
其他好文 时间:
2014-07-03 18:51:20
阅读次数:
266
文件系统,对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS
分类:
其他好文 时间:
2014-07-02 20:47:41
阅读次数:
285
用C++操作MySQL数据库类: 注释:这几个类对处理不是很大数据量的操作是很理想的, 但不适宜特大型的数据的查询,因为源码中将查询到的数据直接放入了内存。 /* * project: * 通用模块 ( 用 c++ 处理 mysql 数据库类,像ADO ) * * description: * .....
分类:
数据库 时间:
2014-07-02 18:33:14
阅读次数:
320
在这个大数据,云部署不断映入眼帘的时代,也许很多人作为公司IT架构的管理者都会觉得有些无助和迷惘。新兴的科技确实给日常的IT工作带来了便利,但亦带来了种种挑战和不可预期的困难。数据的存储,传输的便利固然重要,但是数据的安全却要重要的多。你永远都不会希望把自己的..
分类:
其他好文 时间:
2014-07-02 16:03:04
阅读次数:
268
我们以RHEL6.3为例说明。Linux的命令后面会有命令选项,有的选项还有选项值。选项的前面有短横线“-”,命令、选项、选项值之间使用空格隔开。有的命令没有选项,会有参数。选项是命令内置的功能,参数是用户提供的符合命令格式的内容。1.1.1. 命令提示符在桌面上点击鼠标右键,在弹出菜单中选择“Op...
分类:
系统相关 时间:
2014-07-02 14:41:56
阅读次数:
307
Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之...
分类:
其他好文 时间:
2014-07-02 13:48:43
阅读次数:
299
大家好,我是成都[LD],博客四年前就申请了,一直没打理,最近正好有时间,遂萌生了写技术博客的念头。我不得不感慨现在新技术更新很快,一不小心,就感觉自身就Out了。记得一年前,当时我也是在51CTO上了解到NoSQL和Hadoop这样的信息,当时就简单觉得很新奇,没想到一年之后发..
分类:
编程语言 时间:
2014-07-02 11:10:33
阅读次数:
1811
美国时间6月26日,在Gartner举办的安全与风险管理峰会上,发布了2014年的十大信息安全技术。这十大技术分别是:1)云访问安全代理:放置于边界或者云端的PEP(策略执行点),当前云身份管理的热点技术2)自适应访问控制:基于情境感知的访问控制3)沙箱普遍化:沙箱不再是一个..
分类:
其他好文 时间:
2014-07-02 10:57:33
阅读次数:
184
大数据的概念越来越多的被人们提及的今天,数据可视化也同样被提上了日程。可视化已经成为了解数据的最佳方式(或唯一的方法),而且如果我们不可视化的话,我们就会落伍。人们使用计算机创建图形图表,可视化提取出来的数据,将数据的各种属性和变量呈现出来。随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,发...
分类:
其他好文 时间:
2014-07-02 10:28:47
阅读次数:
146