码迷,mamicode.com
首页 >  
搜索关键字:大型数据集    ( 104个结果
Hadoop编译
什么是Apache Hadoop? Apache?Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠 ...
分类:其他好文   时间:2018-08-02 14:50:30    阅读次数:225
数据归约
对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果, 2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据 3.数据的描述以及特征的挑选、归约或 ...
分类:其他好文   时间:2018-07-28 11:56:45    阅读次数:183
统计思维-程序员数学之概率统计-云图
封面 简介 本书是一本全新的概率统计入门教材,重点介绍如何用统计学方法分析大型数据集。本书会介绍如何使用计算机实现各种统计方法,这有诸多优点。 学生可以通过编写程序来深化和检查自己对概念的理解。 例如, 编写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些代码需要他们正确理解相关概念,消除 ...
分类:其他好文   时间:2018-07-22 00:33:25    阅读次数:184
Pandas常用操作方法
Pandas pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 >>> from pandas import Se ...
分类:其他好文   时间:2018-07-19 18:12:01    阅读次数:869
吴恩达《机器学习》课程总结(17)大规模机器学习
17.1大型数据集的学习 首先通过学习曲线判断是否增大数据集有效: 高方差时(交叉验证集误差减去训练集误差大时)增加数据集可以提高系统。下图中左图增加数据集有效,右图无效。 17.2随机梯度下降法 随机梯度下降法是只使用一个样本来迭代,其损失函数为: 迭代过程为: 特点: (1)计算量小,迭代速度快 ...
分类:其他好文   时间:2018-07-07 17:45:50    阅读次数:201
Hive管理表分区的创建,数据导入,分区的删除操作
Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法。在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象。而在Postgresql中分区表其实相当于分别建立了很多小表,其实和Oracle是异曲同工罢了。 在HIV ...
分类:其他好文   时间:2018-06-13 00:19:20    阅读次数:1693
Hive(一)--简介
Hive(一)--简介Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本身是建立在Apache Hadoop之上,主要提供以下功能:(1)它提供了一系列的工具,可用来对数据进行提取/转化/加载(ETL);(2)是一种可以存储、查询和分析存储在HDFS(或者HBase ...
分类:其他好文   时间:2018-05-21 19:39:20    阅读次数:133
Apache Hadoop 入门教程第一章
ApacheHadoop是一个由Apache基金会所开发的分布式系统基础架构。可以让用户在不了解分布式底层细节的情况下,开发出可靠、可扩展的分布式计算应用。ApacheHadoop框架,允许用户使用简单的编程模型来实现计算机集群的大型数据集的分布式处理。它的目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性。其本身被设计成在应用层检测和处
分类:Web程序   时间:2018-05-10 15:33:42    阅读次数:176
Pandas详解一
pandas简介 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 Series:一维数组,与Numpy中的一维arr ...
分类:其他好文   时间:2018-04-29 01:25:48    阅读次数:1102
机器学习基础 --- pandas的基本使用
一、pandas的简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数 ...
分类:其他好文   时间:2018-04-22 18:12:26    阅读次数:219
104条   上一页 1 ... 4 5 6 7 8 ... 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!