Spark是一种与Hadoop相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1.Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2.由于RDD的特性,Spark不适用
分类:
其他好文 时间:
2018-04-03 17:26:53
阅读次数:
116
大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等,汇集的是IT最热门、最流行的IT技术,大数据是机器学习、深度学习、AI等尖端可以领域的基础架构。 大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管
分类:
其他好文 时间:
2018-04-03 17:23:44
阅读次数:
143
一、Python是什么? Python时候全球4大最流行的编程语言之一,因为其语法简洁、功能强大,目前已广泛应用于人工智能、云计算开发、大数据开发、数据分析、科学运算、网站开发、爬虫、自动化运维、自动化测试、游戏开发金融分析等领域。 二、Python的优点 1. Python的定位是“优雅”、“明确 ...
分类:
编程语言 时间:
2018-03-24 21:28:59
阅读次数:
253
处理海量数据是大数据工程师必备技能,通过对PB级别的数据进行挖掘与分析发掘出有价值的信息,为企业或政府做出正确决策提供依据,是十分必要的一项工作,以下是常用的海量数据处理方法!1. Bloom filter Bloom filter是一种二进制向量数据结构,具有很好的空间效率和时间效率,可用来检测一个元素是否属于一个集合。该方法的优点是它的插入和查询时间都是常数
分类:
其他好文 时间:
2018-03-23 19:24:33
阅读次数:
226
随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、更好的性能以及更高安全性的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有优于传统分布式文件系统的优点。1. 支持超大文件 HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据
分类:
其他好文 时间:
2018-03-23 19:24:19
阅读次数:
179
随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、更好的性能以及更高安全性的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有优于传统分布式文件系统的优点。1. 支持超大文件 HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据
分类:
其他好文 时间:
2018-03-23 18:52:37
阅读次数:
190
总体来讲keras这个深度学习框架真的很“简易”,它体现在可参考的文档写的比较详细,不像caffe,装完以后都得靠技术博客,keras有它自己的官方文档(不过是英文的),这给初学者提供了很大的学习空间。 在此做下代码框架应用笔记 ...
分类:
其他好文 时间:
2018-03-17 16:50:27
阅读次数:
203
系统安装问题 在win10在需要security boot设置成disable,否则安装完后无法设置启动项。 安装完ubuntu重启,系统会直接进入win10,需要使用EaeyBCD进行启动项设置。 进入ubuntu系统,校园网不要使用DSL联网,而是直接默认连上有线连接后在网页进行登录 显卡驱动安 ...
分类:
其他好文 时间:
2018-03-17 16:48:39
阅读次数:
152
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决
分类:
其他好文 时间:
2018-03-16 15:12:36
阅读次数:
145
因公司战略以及业务拓展,收大量java攻城狮以及大数据开发攻城狮. 职位信息: java攻城狮: https://job.cnblogs.com/offer/56032 大数据开发攻城狮: https://job.cnblogs.com/offer/56033 欢迎博客园的XDJM自荐和推荐! 此招 ...
分类:
编程语言 时间:
2018-03-03 16:52:37
阅读次数:
198