TFS(TaobaoFileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,其设计目标是支持海量的非结构化数据的存储;TFS使用C++语言开发,需要运行在64bitLinuxOS上,本文介绍如何在Linux环境编译安装TFS。安装依赖的软件包automakeTFS基于automake工具构..
分类:
Web程序 时间:
2014-11-06 17:52:41
阅读次数:
309
大数据中90%的数据属于机器数据。除了来自于服务器、存储、网络中的传统IT数据以外,来自移动互联网、物联网中的大量非结构化数据也都属于机器数据。相比数据库数据,机器大数据具有数量大、增长速度快、复杂性高、多样化等特点,但是价值密度略低。Splunk就是一家专注于处理机..
分类:
其他好文 时间:
2014-10-30 01:59:48
阅读次数:
166
其实对一些基本的概念都没有弄清楚,这里从网上找一些来普及下一、结构化数据与非结构化数据结构化数据就是能变成二维的行数据,主要应用在关系型数据库中。非结构化数据是不可以变的,例如视频,音频文件,没有办法变成二维的行数据。所以一般不能用简单的关系型数据库存储,所以就引入了别的存储方式。相对于结构化数据(...
分类:
其他好文 时间:
2014-10-14 16:30:38
阅读次数:
409
对来自互联网的非结构化数据中隐含的舆情信息进行提炼和大数据分析,正在大数据的第一波浪潮中创造出越来越大的市场空间。而如何利用从互联网、社交网络、移动应用等创新领域创造的、呈现出爆发式增长的海量非结构化数据中创造价值,是当前大数据行业最为关注的热点话题。利用海量数据分析工具和算法对来自互联网的非结构化...
分类:
其他好文 时间:
2014-09-24 13:27:46
阅读次数:
292
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好h.....
分类:
其他好文 时间:
2014-09-02 19:37:55
阅读次数:
217
互联网的内容主流,已经出现从文字转向图片的趋势,这标志着互联网已经进入“读图时代”。在“读图时代”的大背景下,图像中的海量非结构化数据的挖掘成为价值潜力的集聚地,如何挖掘其中隐藏的用户“密码”,成为大数据“落地”遇到的一大挑战。 图片大数据挖掘,主要目标是从中提取出图片的自身特征,包括语义、质...
分类:
其他好文 时间:
2014-08-14 16:37:58
阅读次数:
242
Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314
Hadoop MapReduce思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数...
分类:
其他好文 时间:
2014-07-24 17:00:47
阅读次数:
263
TFS(TaobaoFileSystem)TFS是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存..
分类:
其他好文 时间:
2014-07-21 22:17:17
阅读次数:
195
随着移动互联网的发展,大量的非结构化数据随之产生,不仅对数据库存储大数据提出了新的要求,同时对于查询数据和进行大数据分析也提出了苛刻的要求,这些显然是单服务器处理能力无法满足的,自然建立一个集群是不可避免的。集群的复杂性大家众所周知,而MongoDB的优势之一正式可以帮助我们解决这些问题。分片(sh...
分类:
数据库 时间:
2014-07-12 13:00:54
阅读次数:
267