对于新建的模型,如何评价其好坏,以及自身的泛化能力,是机器学习中一个关键性问题。对于二分类模型,因原始数据可能是非平衡的,因此仅通过最后的预测准确率并不能评价模型的效果,对于机器学习中的分类与回归两大类模型,需采用不同的模型评价指标。 一?分类模型 1.混淆矩阵及F1分数 混淆矩阵(confusio ...
分类:
其他好文 时间:
2020-03-09 00:46:58
阅读次数:
156
一.线性回归实现总结 手动实现线性回归,损失函数,梯度下降优化函数 线性回归是神经网络的基石,每一个神经元都可以看作是一个线性回归 https://www.cnblogs.com/xieviki650/p/ML_Linear-regression.html 推荐李宏毅老师的机器学习视频,结合视频和作 ...
分类:
其他好文 时间:
2020-03-08 19:46:48
阅读次数:
79
本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。 https://github.com/midou tech/articles 机器学习整体难度还是有点,不过这个岗位真的是很香,钱多,发展空间足未来可期啊。 本篇文章面经是三位大佬面试百度机器学习岗位的面试题,其中两位已经拿到 ...
分类:
编程语言 时间:
2020-03-07 21:16:54
阅读次数:
110
数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系。 数据特征分析包括以下几个分析角度: 1、分布分析 2、对比分析 3、统计量分析 4、帕累托分析 ...
分类:
其他好文 时间:
2020-03-07 20:59:50
阅读次数:
93
xgboost(eXtreme Gradient Boosting) 大规模并行 boosting tree 的工具,据说是现在最好用的 boosting 算法,针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树,而 xgboost ...
分类:
编程语言 时间:
2020-03-07 20:57:18
阅读次数:
95
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:
其他好文 时间:
2020-03-07 19:08:19
阅读次数:
73
数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质、描述数据的形态特征并解释数据的相关性。 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行 ...
分类:
其他好文 时间:
2020-03-06 22:22:22
阅读次数:
95
如何让MYD-C8MMX丰富你的多媒体+AI应用?导读:当今物联网时代里,多媒体技术对用户体验发挥着至关重要的作用,一个优秀的硬件产品设计离不开流畅的音视频、清晰的显示界面等人机交互的应用。未来的人类世界将会充满着智能化和信息化,一个能够搭载AI机器学习算法的人工智能产品将会让人们的生活更加丰富多彩。对于数字标牌、媒体播放、广告机、自助零售终端等应用:具有感官刺激效果的多媒体传播方式以及鲜明的用户
分类:
其他好文 时间:
2020-03-06 19:31:47
阅读次数:
80
数据科学职位的典型面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。 在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。 其中包括以下主题: 线性回归 模型验证 分类和逻辑回归 正则化 决策树 随机森林 GBD ...
分类:
其他好文 时间:
2020-03-06 11:23:59
阅读次数:
95