Mini Batch K-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间,同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间,而且产生的结果效果只是略差 ...
分类:
编程语言 时间:
2020-01-01 18:38:59
阅读次数:
105
```javapackage com.wbytts.util;import java.io.IOException;import java.io.InputStream;import java.sql.Connection;import java.sql.DriverManager;import j... ...
分类:
数据库 时间:
2020-01-01 17:07:28
阅读次数:
94
Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重。去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型。如下图: 随机森林算法: 一般用于大规模数据,百万级以上的。 在Bagging算法的基础 ...
分类:
编程语言 时间:
2020-01-01 14:59:34
阅读次数:
94
简单使用: awk :对于文件中一行行的独处来执行操作 。 awk -F :'{print $1,$4}’ :使用‘:’来分割这一行,把这一行的第一第四个域打印出来 。 AWK命令介绍 awk语言的最基本功能是在文件或字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作,完整的 ...
分类:
其他好文 时间:
2019-12-31 14:16:13
阅读次数:
69
ODS:数据 来源 : 一部分是来自关系型数据库,符合ER模型 。一部分来自日志 ,清洗成二维表 DWD: 把所有的数据清理整合 ,规范化 。脏数据清理 ,命名不规范的。最后拿到的是干净的 ,一致性的数据 。 把公共维度抽取出来,如区域 DWS: 维度建模,通用的汇总层 ,为了避免重复计算。 DM: ...
分类:
其他好文 时间:
2019-12-30 09:31:43
阅读次数:
212
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。 它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,tra ...
在使用perf排查问题时,我们经常会发现[kernel.kallsyms]这个模块。这到底是个什么东西呢? 简介: 在2.6版的内核中,为了更方便的调试内核代码,开发者考虑将内核代码中所有函数以及所有非栈变量的地址抽取出来,形成是一个简单的数据块(data blob:符号和地址对应),并将此链接进 ...
分类:
系统相关 时间:
2019-12-29 18:45:31
阅读次数:
137
抽取数组各个值中随机的三个不同的人的名字 var arr = ["王","赵","孙","李","张","周","吴"]; for (var i = 3; i > 0 ; i--) { var a = Math.round(Math.random()*arr.length-1); var b = a ...
分类:
其他好文 时间:
2019-12-29 18:15:09
阅读次数:
56
原文:QR 码详解(上) 关于二维码,我查了下资料,现在基本都在用日本的 QR 码,PDF417以及汉信码日常基本看不到。原因在于各方面来说,的确是 QR 码最为优秀。所以我准备写一篇介绍 QR 码的文章,如果是写书,可能不方便写得这么详尽,但如果是网上的文章,就可以自由发挥了。写完这篇文章,再抽取... ...
分类:
其他好文 时间:
2019-12-29 13:17:50
阅读次数:
358
在SSIS开发ETL(Extract-Transform-Load),数据抽取、转换、装载的过程。我们需要自己定义变量 一、SSIS变量简介 SSIS(SQL Server Integration Services,SQL Server整合服务)变量分分为两种,一种是系统变量,一种用户定义的变量。系 ...
分类:
数据库 时间:
2019-12-29 10:51:19
阅读次数:
74