聚类 聚类任务 在无监督学习(密度估计、异常检测等)中,训练样本的标记信息是未知的(即不人为指定),旨在发现数据之间的内在联系和规律,为进一步的数据分析提供基础。 此类学习任务中研究最多、应用最广的是聚类。 聚类将数据集中的样本划分为若干个通常是不相交(有的时候会相交)的子集(簇,也叫类),即将样本 ...
分类:
其他好文 时间:
2017-07-26 17:36:00
阅读次数:
197
Implementing a Statistical Anomaly Detector in Elasticsearch - Part 1 该图显示了4500万个数据点的最小/最大/平均值(超过600小时的75,000个单独时间序列)。这个图表中有八个大型的模拟中断,你能发现吗? 没有? 没关系,我 ...
分类:
其他好文 时间:
2017-07-10 22:07:11
阅读次数:
465
在基于高斯分布的异常检测算法一文中,详细给出了异常检测算法的原理及其公式,本文为该算法的Octave仿真。实例为,根据训练样例(一组网络服务器)的吞吐量(Throughput)和延迟时间(Latency)数据,标记出异常的服务器。 可视化的数据集如下: 我们根据数据集X,计算其二维高斯分布的数学期望 ...
分类:
编程语言 时间:
2017-06-28 14:22:27
阅读次数:
221
本文介绍的 Isolation Forest 算法原理请参看我的博客:Isolation Forest异常检测算法原理详解,本文中我们只介绍详细的代码实现过程。 1、ITree的设计与实现 首先,我们参看原论文中的ITree的构造伪代码: 这里写图片描述 1.1 设计ITree类的数据结构 由原论文 ...
分类:
编程语言 时间:
2017-06-27 18:51:56
阅读次数:
362
在编写稳定可靠的软件服务时经常用到输出堆栈信息,以便用户/开发者获取准确的运行信息。常用在日志输出,错误报告,异常检测。本文介绍Linux与Windows下用C++获取堆栈信息的方法。 ...
http://blog.csdn.net/wangyibo0201/article/details/51705966 局部异常因子算法-Local Outlier Factor(LOF) 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的 ...
分类:
编程语言 时间:
2017-06-06 13:07:14
阅读次数:
546
数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。 需要注意的是,本文仅介绍最为基础的单维度异常检测及处理方法,而在实际应用中更多用到的是多维度异常检测,这部分得到时结合具体项目学习。 ...
分类:
其他好文 时间:
2017-05-20 21:12:06
阅读次数:
133
前言 上篇我们介绍了HMM的基本原理以及常见的基于参数的异常检测实现,这次我们换个思路,把机器当一个刚入行的白帽子,我们训练他学会XSS的攻击语法,然后再让机器从访问日志中寻找符合攻击语法的疑似攻击日志。 通过词法分割,可以把攻击载荷序列化成观察序列,举例如下: 词集/词袋模型 词集和词袋模型是机器 ...
分类:
编程语言 时间:
2017-05-15 10:11:05
阅读次数:
291
前言 隐式马尔可夫(HMM),也称韩梅梅,广泛应用于语音识别、文本处理以及网络安全等领域,2009年I Corona,D Ariu,G Giacinto三位大神关于HMM应用于web安全领域的研究论文,让HMM逐渐被各大安全厂商重视。本篇重点介绍HMM最常见同时也比较基础的基于url参数异常检测的应 ...
分类:
编程语言 时间:
2017-05-15 09:48:35
阅读次数:
242
15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开发和评价一个异常检测系统 15.5 异常检测与监督学习对比 15.6 选择特征 15.7 多元高斯分布(可选) 15.8 使用多元高斯分布进行异常检测(可选) 15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开 ...
分类:
其他好文 时间:
2017-05-13 22:15:26
阅读次数:
221