Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for ...
分类:
其他好文 时间:
2018-07-25 22:44:51
阅读次数:
237
什么是大数据 所谓大数据,是指数据量庞大、产生数度快、结构多样的价值密度低的数据。其中,数据量庞大是指数据规模超出1、2台高性能主机所能处理范围;结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑、卫星、GPS设备等产生的纯文本格式的数据,还有良心网站NAS ...
分类:
其他好文 时间:
2018-07-25 20:44:02
阅读次数:
224
机器学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分 传统机器学习算法主要包括以下五类: 回归:建立一个回归方程来预测目标值,用于连续型分布预测 分类:给定大量带标签的数据,计算出未知标签样本的标签取值 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有 ...
分类:
编程语言 时间:
2018-07-25 20:08:14
阅读次数:
237
一、整体架构 从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层 ...
分类:
其他好文 时间:
2018-07-25 11:35:36
阅读次数:
156
Splunk总体介绍Splunk是什么Splunk是一个分析计算机系统产生的机器数据,并在广泛的场景中提供数据收集、分析、可视化分布式的数据计算平台。Splunk是一个数据引擎。针对所有IT系统和基础设施数据,提供数据搜索、报表和可视化展现。Splunk是软件–5分钟就可以下载和安装。可以运行在各种主流的操作系统平台。
分类:
其他好文 时间:
2018-07-19 17:23:04
阅读次数:
203
多线程服务器 当前的机器的红利已经结束了 主频已经达到了一个极限了 多线程有自身的优势 API日益成熟,操作系统和标准库都支持了多线程。 用多线程编程要在数据IO和计算找到平衡点。 一个是带宽,一个是数据计算。 linux下fork ,window下的Creat_Process。 多线程编程,如果显 ...
分类:
其他好文 时间:
2018-07-10 23:35:17
阅读次数:
191
什么是计算机?计算机(computer)俗称电脑,是现代一种用于高速计算的电子机器,可以进行数值计算,又可以进行逻辑判断,还具有存储记忆功能,且能够按照程序的运行,自动、高速处理数据。计算机是20世纪最先进的科学技术发明之一。计算机是由什么组成的?一个完整的计算机系统,是由硬件系统和软件系统两大部分组成的。一、硬件系统:主要分为主机和外设两部分,是指那些构成计算机系统的物理实体,它们主要由各种各样
分类:
其他好文 时间:
2018-07-07 17:32:09
阅读次数:
533
1.算术运算 DataFrame.add/sub/mul/div 2.统计 DataFrame.sum/mode/median... describe 简单数据表的信息(max、min、count、mean等等) 3.协方差和相关系数 cov corr ...
分类:
其他好文 时间:
2018-07-05 14:51:19
阅读次数:
190
格式:**grep[-acinv][--color=auto]‘搜寻字串‘filename**选项与参数:-a:将binary文件以text文件的方式搜寻数据-c:计算找到‘搜寻字串‘的次数-i:忽略大小写的不同,所以大小写视为相同-n:顺便输出行号-v:反向选择,亦即显示出没有‘搜寻字串‘内容的那一行!--color=auto:可以将找到的关键字部分加上颜色的显示喔!通过grep能匹配出我们需要
分类:
其他好文 时间:
2018-07-05 00:45:05
阅读次数:
161
什么是数据类型? 数据类型有哪些? 如何查看数据类型? undefined 和 null 的区别? 布尔类型 什么是数据类型? 计算机的本质是计算,计算的本质是对值进行操作,无论是参与计算的值,还是通过计算得到的值,在计算机中都统一称为数据。计算机的语言其实就是对各种数据进行处理,为了更好地处理数据 ...
分类:
Web程序 时间:
2018-07-01 16:53:35
阅读次数:
202