数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系。 数据特征分析包括以下几个分析角度: 1、分布分析 2、对比分析 3、统计量分析 4、帕累托分析 ...
分类:
其他好文 时间:
2020-03-07 20:59:50
阅读次数:
93
xgboost(eXtreme Gradient Boosting) 大规模并行 boosting tree 的工具,据说是现在最好用的 boosting 算法,针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树,而 xgboost ...
分类:
编程语言 时间:
2020-03-07 20:57:18
阅读次数:
95
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:
其他好文 时间:
2020-03-07 19:08:19
阅读次数:
73
数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质、描述数据的形态特征并解释数据的相关性。 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行 ...
分类:
其他好文 时间:
2020-03-06 22:22:22
阅读次数:
95
如何让MYD-C8MMX丰富你的多媒体+AI应用?导读:当今物联网时代里,多媒体技术对用户体验发挥着至关重要的作用,一个优秀的硬件产品设计离不开流畅的音视频、清晰的显示界面等人机交互的应用。未来的人类世界将会充满着智能化和信息化,一个能够搭载AI机器学习算法的人工智能产品将会让人们的生活更加丰富多彩。对于数字标牌、媒体播放、广告机、自助零售终端等应用:具有感官刺激效果的多媒体传播方式以及鲜明的用户
分类:
其他好文 时间:
2020-03-06 19:31:47
阅读次数:
80
数据科学职位的典型面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。 在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。 其中包括以下主题: 线性回归 模型验证 分类和逻辑回归 正则化 决策树 随机森林 GBD ...
分类:
其他好文 时间:
2020-03-06 11:23:59
阅读次数:
95
背景这两年互联网行业掀着一股新风,总是听着各种高大上的新名词。大数据、人工智能、物联网、机器学习、商业智能、智能预警啊等等。以前的系统,做数据可视化,信息管理,流程控制。现在业务已经不仅仅满足于这种简单的管理和控制了。数据可视化分析,大数据信息挖掘,统计预测,建模仿真,智能控制成了各种业务的追求。“所有一切如泪水般消失在时间之中,时间正在死去“,以前我们利用互联网解决现实的问题。现在我们已经不满足
分类:
数据库 时间:
2020-03-06 10:32:08
阅读次数:
385
神经元的数学表示 神经元可以理解为一个具有多个输入、单个输出的模型,输入和输出的关系可以用一个函数来表示。如果用$x_1,x_2,x_3,\cdots,x_n$表示输入,$y$表示输出,那么这个函数可以表示为: $$y = a(w_1x_1+w_2x_2+w_3x_3+\cdots+w_nx_n+b ...
分类:
其他好文 时间:
2020-03-05 15:21:36
阅读次数:
61
机器学习可分为:有监督(Supervised Learning)、无监督(Unsupervised Learning)、强化学习(Reinforcement Learning) 1. 有监督学习:数据集包含样本 x 与标签 y ,训练时,通过计算模型的预测值与真实标签 y 之间的误差来优化网络参数 ...
分类:
其他好文 时间:
2020-03-05 13:54:23
阅读次数:
72
机器学习入门的线性回归,总结李宏毅老师上课内容,记录给自己以后翻阅 ...
分类:
其他好文 时间:
2020-03-05 13:33:54
阅读次数:
117