码迷,mamicode.com
首页 >  
搜索关键字:数据预处理    ( 485个结果
大数据平台网站日志分析系统
1:项目技术架构图: 2:流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hado ...
分类:Web程序   时间:2017-12-09 23:50:23    阅读次数:262
pandas常用函数
1 import语句 2 文件读取 3 数据预处理 4 数据筛选 5 数据运算与排序 6 数学统计 ...
分类:其他好文   时间:2017-12-04 10:22:39    阅读次数:537
中文维基数据处理 - 1. 下载与清洗
1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 ...
分类:其他好文   时间:2017-11-25 13:07:02    阅读次数:201
线性判别分析(Linear Discriminant Analysis-LDA)
Linear Discriminant Analysis(LDA线性判别分析) 用途:数据预处理中的降维,分类任务 目标:LDA关心的是能够最大化类间区分度的坐标轴成分,将特征空间(数据集中的多维样本)投影到一个维度更小的k维子空间中,同时保持区分类别的信息。 原理:投影到维度更低的空间中,使得投影 ...
分类:其他好文   时间:2017-11-08 15:56:09    阅读次数:232
【深度学习系列】PaddlePaddle之数据预处理
上篇文章讲了卷积神经网络的基本知识,本来这篇文章准备继续深入讲CNN的相关知识和手写CNN,但是有很多同学跟我发邮件或私信问我关于PaddlePaddle如何读取数据、做数据预处理相关的内容。网上看的很多教程都是几个常见的例子,数据集不需要自己准备,所以不需要关心,但是实际做项目的时候做数据预处理感 ...
分类:其他好文   时间:2017-11-08 15:04:43    阅读次数:315
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details/53426350 梯度迭代树 算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策 ...
分类:编程语言   时间:2017-11-06 11:05:44    阅读次数:714
sklearn Pipeline 和Ploynomial
Pipeline:一个管道将模型搭建的过程放在一起,如数据预处理和模型建立放在一起,方便参数的同时调整 转载自:http://blog.csdn.net/yisuoyanyv/article/details/74066962; http://blog.csdn.net/SA14023053/arti ...
分类:其他好文   时间:2017-11-05 13:56:56    阅读次数:204
异常检测概览——孤立森林和局部异常因子算法效果是最好的
转自博客:http://www.infosec-wiki.com/?p=140760 一、关于异常检测 异常检测(outlier detection)在以下场景: 数据预处理 病毒木马检测 工业制造产品检测 网络流量检测 等,有着重要的作用。由于在以上场景中,异常的数据量都是很少的一部分,因此诸如: ...
分类:编程语言   时间:2017-11-03 11:05:21    阅读次数:515
2222
1、数据输入层 预处理的方式: 假定X是[N*D]维矩阵(N是样本数据量,D为单张图片的数据向量长度) 第一步,去均值:最常见的图片数据预处理。目的是输入数据各个维度的数据都中心化到0。 1)对待训练的每一张图片的特征,都减去全部训练集图片的特征均值;使用python的numpy工具包,这一步可以用 ...
分类:其他好文   时间:2017-10-29 23:07:46    阅读次数:162
临时记录
Scikit-Learn是基于python的机器学习模块,基于BSD开源许可。Scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理,具体可以参考官方网站上的文档。NumPy(Numeric Python)系统是Python的一种开源的数值计算扩展,一 ...
分类:其他好文   时间:2017-10-28 15:35:24    阅读次数:190
485条   上一页 1 ... 30 31 32 33 34 ... 49 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!