1:项目技术架构图: 2:流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hado ...
分类:
Web程序 时间:
2017-12-09 23:50:23
阅读次数:
262
1 import语句 2 文件读取 3 数据预处理 4 数据筛选 5 数据运算与排序 6 数学统计 ...
分类:
其他好文 时间:
2017-12-04 10:22:39
阅读次数:
537
1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 ...
分类:
其他好文 时间:
2017-11-25 13:07:02
阅读次数:
201
Linear Discriminant Analysis(LDA线性判别分析) 用途:数据预处理中的降维,分类任务 目标:LDA关心的是能够最大化类间区分度的坐标轴成分,将特征空间(数据集中的多维样本)投影到一个维度更小的k维子空间中,同时保持区分类别的信息。 原理:投影到维度更低的空间中,使得投影 ...
分类:
其他好文 时间:
2017-11-08 15:56:09
阅读次数:
232
上篇文章讲了卷积神经网络的基本知识,本来这篇文章准备继续深入讲CNN的相关知识和手写CNN,但是有很多同学跟我发邮件或私信问我关于PaddlePaddle如何读取数据、做数据预处理相关的内容。网上看的很多教程都是几个常见的例子,数据集不需要自己准备,所以不需要关心,但是实际做项目的时候做数据预处理感 ...
分类:
其他好文 时间:
2017-11-08 15:04:43
阅读次数:
315
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details/53426350 梯度迭代树 算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策 ...
分类:
编程语言 时间:
2017-11-06 11:05:44
阅读次数:
714
Pipeline:一个管道将模型搭建的过程放在一起,如数据预处理和模型建立放在一起,方便参数的同时调整 转载自:http://blog.csdn.net/yisuoyanyv/article/details/74066962; http://blog.csdn.net/SA14023053/arti ...
分类:
其他好文 时间:
2017-11-05 13:56:56
阅读次数:
204
转自博客:http://www.infosec-wiki.com/?p=140760 一、关于异常检测 异常检测(outlier detection)在以下场景: 数据预处理 病毒木马检测 工业制造产品检测 网络流量检测 等,有着重要的作用。由于在以上场景中,异常的数据量都是很少的一部分,因此诸如: ...
分类:
编程语言 时间:
2017-11-03 11:05:21
阅读次数:
515
1、数据输入层 预处理的方式: 假定X是[N*D]维矩阵(N是样本数据量,D为单张图片的数据向量长度) 第一步,去均值:最常见的图片数据预处理。目的是输入数据各个维度的数据都中心化到0。 1)对待训练的每一张图片的特征,都减去全部训练集图片的特征均值;使用python的numpy工具包,这一步可以用 ...
分类:
其他好文 时间:
2017-10-29 23:07:46
阅读次数:
162
Scikit-Learn是基于python的机器学习模块,基于BSD开源许可。Scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理,具体可以参考官方网站上的文档。NumPy(Numeric Python)系统是Python的一种开源的数值计算扩展,一 ...
分类:
其他好文 时间:
2017-10-28 15:35:24
阅读次数:
190