本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:
其他好文 时间:
2020-07-02 13:20:51
阅读次数:
67
半监督学习 在有标签数据+无标签数据混合成的训练数据中使用的机器学习算法。一般假设,无标签数据比有标签数据多,甚至多得多。 要求: 无标签数据一般是有标签数据中的某一个类别的(不要不属于的,也不要属于多个类别的); 有标签数据的标签应该都是对的; 无标签数据一般是类别平衡的(即每一类的样本数差不多) ...
分类:
其他好文 时间:
2020-07-02 13:18:26
阅读次数:
60
k临近算法(解决分类问题): 已知数据集,以及该数据对应类型 给出一个数据x,在已知数据集中选择最接近x的k条数据,根据这k条数据的类型判断x的类型 具体实现: from numpy import * import operator def createDataSet(): group = arra ...
分类:
编程语言 时间:
2020-07-01 23:41:49
阅读次数:
60
1. 工程界的恐慌 无论我自己亲眼所见还是道听途说,虽然国内兴起了一段人工智能的浪潮,但是在企业内部对这个领域的了解还是比较局限的。一般来说就是两个态度: 第一种是隔岸观火,这些人认为这个东西太遥远了,都是理论公式,和实际的应用没啥关系,等他们搞的差不多了,出了一些开源库(如tensorflow)我 ...
分类:
其他好文 时间:
2020-07-01 16:10:52
阅读次数:
94
机器人软件平台平台名称所属类型EvolutionRoboticsERSP平台商用MicrosoftRoboticsStudio平台非商业用途免费OROCOS控件库开源且免费Skilligent机器学习插件商用URBI平台商用Webots仿真环境商用Player,Stage,Gazebo平台开源且免费iRobotAWARE平台商用OpenJAUS平台开源CLARAty平台开源为什么要使用机器人软件开
分类:
其他好文 时间:
2020-07-01 15:53:14
阅读次数:
82
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。 但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一 ...
分类:
编程语言 时间:
2020-06-30 14:26:14
阅读次数:
46
一、朴素贝叶斯分类器的构建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.): # 平滑系数, 默认为1(拉普拉斯平滑). self.alpha = alpha def _class_prior_pr ...
分类:
其他好文 时间:
2020-06-30 12:34:35
阅读次数:
61
果然机器学习学起来要涵盖的主题真不少,初探了这么多了,还是可以不断发现新的主题。 参考资料:https://www.youtube.com/watch?v=tH9FH1DH5n0 Bagging (weighted) average or voting 使用情景:模型复杂,容易overfit,例如决 ...
分类:
其他好文 时间:
2020-06-29 23:00:15
阅读次数:
72
Python从入门到放弃-课堂上课录播版本 视频链接:https://pan.baidu.com/s/1MeobsfP83DVgizOUMec3Vw 密码:dyuo 感觉视频还不错的的话点个关注,谢谢 想要全套视频的可以添加我的微信:a1171958281 人工智能-机器学习-线下网录版本 视频链接 ...
分类:
编程语言 时间:
2020-06-29 09:59:31
阅读次数:
91
参考资料:https://www.youtube.com/watch?v=lnjrn3bF9lA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=18 我觉得可解释ML我很感兴趣,最近就研究这个了。 可解释并不是为了打开黑盒,因为人也是黑盒,可解释是为了让 ...
分类:
其他好文 时间:
2020-06-29 00:10:00
阅读次数:
68