Big Data Analytics and Data Mining 第一天.

时间：2014-05-07 20:16:08 阅读：399 评论：0 收藏：0 [点我收藏+]

　　今天是上课的第一天。真心很感激导师能让我出来学习。今天突然觉得自己要好好学习英语。并不是上课的时候我看不懂裴教授的课件。而是觉得如果英语不好就很像乡巴佬那样，很难接触到高级的东西。通过今天的听讲，我感觉对数据挖掘的理解更深刻些。以前总觉得自己研究生的目标是要好好学习算法，好好学习相关的技术。现在觉得除了要好好学习算法外，我也期待自己能做出一些研究。

　　记录下今天讲课的内容。

　　今天我觉得主要讲了三部分：

1，数据挖掘相关的概念及相关的学术期刊。

从广义上来定义数据挖掘：The art of data-driven thinking. machine learing 的目的是为了学习出来数据上的概率分布。但是裴教授又说无论是机器学习还是数据挖掘等学出来的模型都是错的，只是当前的模型比其他模型更有用。

　　几个稍微不太符合正常人想法的结论：（1）在挖掘数据的过程中花时间最多的是数据的提取与预处理。（2）人类利用数据的增长速度大于数据存储能力的增长速度。（3）关键字的搜索区域与飓风的运行轨迹有很强的关系（4）当数据量达到一定程度的时候，算法的正确率可以可以适当降低要求？？？

　　数据挖掘最好的三个会议：KDD，ICDM，SIAM-Data.一个据说相对好发表的杂志是KDD Explorations、

2，云计算。

我听完之后就觉得这个东西是：租用别人的计算服务来完成自己的task。然后动态的可以做各种适配的调整。

什么时候用cloud？（1）使用寿命不是特别长。（2）使用多少资源预测不出来。（3）不是非常关键的环节。

　　3，统计部分。

Significance的定义：如果一个result偶然很难发生，那么它就是Significance。

空假设的概念，第一类、第二类错误。