第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视频、图片、音频 ...
分类:
其他好文 时间:
2019-06-30 20:35:37
阅读次数:
147
首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。扩展讲大数据的4个基本特征,我们将进行下面额思考:1.数据来源广?广泛的数据来源从何而来,通过何种方式进行采集与汇总?相对应的我们出现Sqoop,Cammel,Da
分类:
其他好文 时间:
2019-06-02 11:44:27
阅读次数:
123
1、文本文件与二进制文件的分辨 1)用文本编辑器打开不乱码的是文本文件,反之是二进制文件 2)二进制文件必须通过特定的应用程序才能打开和读取。 2、常见的文本文件格式 1)分隔格式(结构化数据) 2)JSON格式(半结构化数据) 3)HTML格式(非结构化数据) ...
分类:
其他好文 时间:
2019-05-11 21:47:02
阅读次数:
148
Bigdata:结构化数据:约束半结构化数据:非结构化数据:没有元数据;搜索引擎:搜索组件、索引组件蜘蛛程序:存储:分析处理:2003年:TheGoogleFileSystem2004年:MapReduce:SimplifiedDataProcessingOnLargeCluster2006年:BigTable:ADistributedStorageSystemforStructureDataHD
分类:
其他好文 时间:
2019-05-01 22:37:18
阅读次数:
206
大数据已经融入到各行各业,哪些大数据技术是最受欢迎?哪些大数据技术潜力巨大?请听大讲台老师对10个最热门的大数据技术的介绍。 大数据学习群:199427210 (一)预测分析 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模 ...
分类:
其他好文 时间:
2019-04-26 13:36:05
阅读次数:
118
卷积网络(CNN)通常用于图像数据。递归神经网络(RNN)非常适合一维序列,数据可能是一个时间组成部分。计算机理解非结构化数据相对更难,如音频,图像像素值或文本中的单个单词。如今最可靠的方法来在神经网络上获得更好的性能,往往就是要么训练一个更大的神经网络,要么投入更多的数据,仅仅通过将Sigmoid ...
分类:
其他好文 时间:
2019-03-31 23:26:53
阅读次数:
267
Nosql 1.适合存储非结构化数据存储,数据量且不可预期。如:评论,文章 2.排行榜数据获取,实时更新的数据。如:游戏榜排名,用户投票 3.限时抢购活动。如:淘宝抢购活动 4.反垃圾系统。如:敏感词 5.消息实时推送。如:微博推送 6.缓存。如:热点数据 SQL 1.适合存储结构化数据。如:账号, ...
分类:
数据库 时间:
2019-02-28 14:45:06
阅读次数:
186
在前面的文章中我们给大家讲述了很多有关大数据的热词,我们在这篇文章中给大家介绍结构化数据、半结构化数据、非结构化数据、数据清洗。这些词汇都是和数据分析有关的,下面我们就给大家详细地介绍一下这些词的意思。 ...
分类:
其他好文 时间:
2019-02-11 17:21:10
阅读次数:
147
Hbase的Rowkey设计原则 一、 Hbase介绍 HBase -> Hadoop Database,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式,主要用来存储非结 ...
分类:
其他好文 时间:
2019-01-19 20:13:44
阅读次数:
177
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom:Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复
分类:
其他好文 时间:
2018-12-30 12:51:29
阅读次数:
204