下面内容摘自互联网并作了整理。名词:BI(Business Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2015-03-21 18:21:18
阅读次数:
168
缺失值填充之后,就要对其他格式有问题的属性进行处理了。比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据。所有数据通常可以分成两种类型:定量与定性。定量的属性(数值属性)通常蕴涵着可排序性...
分类:
其他好文 时间:
2015-03-20 23:44:48
阅读次数:
197
下列地址经抽查测试,大部分可用,不可用已删去,部分未测试。数据比较原始也比较老旧,不过用来测试还是足够的。包含了机器学习,数据挖掘和智能推荐的原始数据和结果集。一般写算法都是自己瞎弄一些数据测试,虽然讨论班上师兄师姐们经常说一些常用的数据集,就是没当回事。今天看了看唉,真是太好了,可惜俺知道的太晚了...
分类:
其他好文 时间:
2015-03-20 16:06:38
阅读次数:
182
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。首先,我们要先看...
分类:
其他好文 时间:
2015-03-20 14:21:49
阅读次数:
220
ID3是数据挖掘分类中的一种(是一种if-then的模式),其中运用到熵的概念,表示随机变量不确定性的度量H(x)=-∑pi *log pi信息增益是指特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差g(D,A)=H(D)-H(...
分类:
其他好文 时间:
2015-03-19 23:25:45
阅读次数:
155
1)数据挖掘的一种定义 是一项通过探测大量数据以发现有意义的模式和规则的业务流程。 数据挖掘是一种业务流程,它以其它业务流程产生的大量数据为输入,一般经过清理,整理,识别、分析和度量等加工,得到某种有意义的模式或规则作为输出。而这种输出反过来可以为其它业务流程提供度量,判断,预测等作用。 数据挖掘的基础是大量的数据,不同的挖掘方法和目的对于数据量的要求会有所不同,但一般而言...
分类:
其他好文 时间:
2015-03-18 23:23:18
阅读次数:
154
SPSSClementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的comple...
分类:
其他好文 时间:
2015-03-18 17:44:03
阅读次数:
155
最近觉得十分迷惑,还是不知道自己想要做的是什么,寒假的时候搭建过python服务器,最近也在学安卓。但是总觉得要学的很多,并且这些都并不是自己想做的唉。目前要学习的主要有3个方向了。1.数据挖掘需要学习的地方:推荐系统/数据挖掘/python/R语言/数据分析2安卓:需要学习的地方:java核心思想...
分类:
其他好文 时间:
2015-03-18 13:46:53
阅读次数:
136
atitit.attilax.com产品页面
1. 微信公众号后台服务系统 1
2. 视频图文发布与点播系统 1
3. 图片验证码自动识别 2
4. 手机短信验证码自动识别 2
5. 爬虫,数据采集,数据解析 2
6. 数据挖掘,可视化 2
7. CRUD框架 3
8. 通用web远程接口 3
9. oracle,mysql,sql server(mssql) sql转换器...
分类:
其他好文 时间:
2015-03-18 12:23:29
阅读次数:
148
好文章推荐阅读,大家共同进步提高。机器学习优质公开课资料权威汇总http://www.shookr.com/tech/572-2015-02-03-06-31-09数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?http://www.shookr.com/opinions/573-ola....
分类:
其他好文 时间:
2015-03-16 23:02:12
阅读次数:
204