参考代码 https://github.com/torrvision/Objectness 调试到能运行,花了不少时间,中间读数据集报错这些都能出现的,可怕。 编译成功后,直接运行bing_linux,得到输出 Dataset:`/home/zherlock/Dataset/CV/VOC2007/' ...
分类:
其他好文 时间:
2020-06-21 14:09:40
阅读次数:
56
5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://tang-spark/data/activity-data/") static.printSchema root |-- ...
分类:
其他好文 时间:
2020-06-12 12:48:53
阅读次数:
137
数据库查询语言(Structured Query Language) 数据库查询语言: DDL(data definition language) -数据定义语言,建库建表 DML (data manipulate language ) -数据操作语言,增删改 DQL (data query lan ...
分类:
数据库 时间:
2020-06-12 12:44:31
阅读次数:
64
https://www.zhihu.com/question/21704547 ...
分类:
其他好文 时间:
2020-06-10 12:52:07
阅读次数:
44
所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 ...
分类:
其他好文 时间:
2020-06-08 22:11:31
阅读次数:
235
linear regression logistic regression SVM binary Tree naive bayes adaboost clustering ...
分类:
其他好文 时间:
2020-06-07 21:24:49
阅读次数:
59
01 准备环境 环境:ubuntu 16.04 环境(物理 or 虚拟) 确认 CPU 是否支持虚拟化: # egrep -o '(vmx|svm)' /proc/cpuinfo # vmx 如果不支持,开启 KVM 嵌套虚拟化之后再重启。 1.1 安装 KVM 环境 sudo apt-get in ...
分类:
系统相关 时间:
2020-05-31 22:07:40
阅读次数:
123
1 #利用鸢尾花数据集绘制P-R曲线 2 print(__doc__) #打印注释 3 4 import matplotlib.pyplot as plt 5 import numpy as np 6 from sklearn import svm, datasets 7 from sklearn. ...
分类:
其他好文 时间:
2020-05-31 16:09:53
阅读次数:
66
一、所有算法归结成四种算法 分类:识别某个对象属于哪个类别,常用的算法有:SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林),常见的应用有:垃圾邮件识别、图像识别。 回归:预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ri ...
分类:
编程语言 时间:
2020-05-31 10:49:08
阅读次数:
87
###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 基于 Spark SQL engine 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 Spark SQL engine 持续地、增量地处理流数据 支持 stre ...
分类:
其他好文 时间:
2020-05-29 21:22:01
阅读次数:
77