码迷,mamicode.com
首页 > 其他好文 > 详细

数据+假设=预测:数据科学中最可悲的方程式

时间:2020-12-22 11:46:28      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:期望   魔法   这不   来源   参数   跟踪   中国   检验   war   

技术图片
图源:unsplash

准备好面对惨淡的现实了吗?我即将投放一颗关于统计学和数据科学的真相炸弹。

推断=数据+假设。换句话说,统计学并不能为你提供真实的信息。来看看这些常见的误解:

· “统计学可以将数据变成真理!”
· “如果找到正确的方程式,我就能知道未知数。”
· “如果我对数据进行足够的数学运算,就可以减少不确定性。”

这些听起来像童话对吗?因为它们本来就是童话!

痛苦的真理

从统计学家的角度来看,世界上没有什么魔法能让你无中生有,趁早放弃这个希望吧,这不是统计的意义所在。这篇文章可以让你避免浪费十年的时间学习统计“黑魔法”来追逐这个难以实现的梦想。

但仍然有很多“骗子”会试图说服你,典型的欺骗手段是用你不甚了解的东西诓你,借此得到你的惊叹和信任,引你走上错误的道路。切记!抵制那些装腔作势者。

技术图片
图源:unsplash

不要像伊卡洛斯一样跌落!

可以把统计推断(简称“统计”)看作是像伊卡洛斯一样的飞跃,从我们知道的(样本数据)到我们不知道的(我们的总体参数)。不过,在统计学中,你所知道的并不是你希望知道的。

你想要明天的事实,但只有过去可以告诉你;也许你想知道所有潜在用户对产品的看法,但你只能询问其中的一百个人。之后,要面对的就是不确定的事情了。

这不是魔法,而是假设。

怎样从你所知道的内容跳到不知道的内容呢?你需要一座桥来跨越这个鸿沟,而这座桥就是假设。这就是所有数据科学中最痛苦的方程式:数据+假设=预测。

你可以把“预测”替换成“推断”或“预测”——它们在这里都是一样的,即:关于你不确定的事情的陈述。假设弥合了你所知道的内容与不知道的内容之间的鸿沟。

技术图片
图源:unsplash

什么是假设?

如果我们知道所有事实,并且知道的事实实际上是真实的事实,那么我们就不需要假设或统计学家了。假设是你用来弥合所知道的内容和你希望知道的内容之间的鸿沟的补丁。当你错过事实时,必须使用它们来计算出结果。

假设是创可贴,你将其贴在信息缺失的地方。更直白些,假设并不是事实,它只是你编造出来的,因为你的知识有漏洞。如果你习惯于过分自信地欺骗他人,请记得提醒自己,把任何基于假设的事情当作事实都是一种夸大。统计是你试图在一个不确定的世界中做到最好。

生活处处有假设。

假设是决策的一部分

给我展示一个“无假设”的现实决策,我能快速地说出一大堆你甚至都没有意识到你正在做的隐含假设。

示例:当你阅读报纸时,你是不是假设所有事实都经过了核实?当你制定2020年的计划时,你是不是假设不会发生全球大流行的疾病?你是不是假设你的随机数生成器是随机的?(它们通常不是)当你选择网上购物时,你是不是假设从你的银行账户中提取的金额是正确的? 你最近吃的零食是什么,你是不是假设它不会使你中毒?当你吃药时,你“知道”它的长期安全性和有效性吗……

不管你喜欢与否,假设是决策的一部分。对现实世界数据的适当尝试应包含大量书面假设。在这些假设中,数据科学家可以清楚地了解自己必须舍弃的弯路。

即使你选择避开统计数据,你也可能使用假设来指导你的行动。为了保证安全,跟踪你的决策所基于的假设是至关重要的。

统计学的“魔法”是如何发生的

技术图片
图源:unsplash

统计领域为你提供了一整套工具,使你的假设形式化,并将它们与证据结合起来,从而做出合理的决定。期望一个包含不确定性和可能性的分析成为真相来源,这样的想法是荒谬的。

是的,这就是统计学“魔法”起作用的方式。你选择你愿意接受的假设,然后把它们和数据结合起来,在这个“罪恶结合”的基础上采取合理的行动,这就是统计学。

技术图片
伊卡洛斯插图

两个人可以从相同的数据中得出完全不同的有效结论,这种情况的发生只需要使用不同的假设。统计学为你提供了一种更加深思熟虑地做出决策的工具,但是它并没有唯一正确的使用方法,这是一种个人决策工具。

科学是什么?

当科学家使用统计学方法来得出结论时,这意味着什么?简单地说,他们已经形成了一种观点,并决定与全世界分享。这并不是一件坏事,科学家的工作就是勉强形成观点,这让我在假设这些观点值得听取时感觉更好。

我非常喜欢听取那些比我拥有更多专业知识和信息的人的建议,但从不让自己把他们的观点与事实混淆。尽管许多科学家精通概率论,但我也见过一些科学家在统计学上搞得一团糟。观点无法也不应说服那些不愿意基于证据和未经检验的假设而得出结论的人。

你可以把统计学看作是在不确定的情况下改变思维的科学。当缺乏信息的时候,它是一个帮助你做出深思熟虑的决定的框架,没有唯一正确的方法来使用它。但要记住,它不能为你提供所需的事实,它为你提供了缺乏事实情况下的应对方法。

技术图片
图源:unsplash

如何在不确定的世界里做到更好,想做到这点时,假设对你才是必须的。

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:雷玥、刘艺
相关链接:
https://towardsdatascience.com/the-saddest-equation-in-data-science-e60e7819b63f

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

技术图片

数据+假设=预测:数据科学中最可悲的方程式

标签:期望   魔法   这不   来源   参数   跟踪   中国   检验   war   

原文地址:https://blog.51cto.com/15057819/2565165

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!