专业既然是机器学习,那工作肯定也是继续和数据打交道,那么问题来了,很多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取,怎样高效的抽取数据?
利用往常算法比赛中常用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。
那么,重点来了,正则表达式,干净利落。
模版如下:
//step1,set reg string
String r...
分类:
编程语言 时间:
2014-12-19 00:41:32
阅读次数:
265
只是过来人,说点看法: 基础篇: 1. 读书《Introduction to Data Mining》,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人。另外可以用这本书做参考《Data Mining : Concepts and Techniques》。第二本比较厚,也多了一些数据仓库方面的知...
分类:
其他好文 时间:
2014-12-19 00:33:49
阅读次数:
264
日志归档与数据挖掘 http://netkiller.github.io/journal/log.html Mr. Neo Chen (陈景峰), netkiller, BG7NYT 中国广东省深圳市龙华新区民治街道溪山美地 518131 +86?13113668890 +86?755?29812080 <netkill...
分类:
其他好文 时间:
2014-12-16 17:20:42
阅读次数:
383
(写在前面)昨天说写个机器学习书单,那今天就写一个吧。这个书单主要是入门用的,很基础,适合大二、大三的孩子们看看;当然你要是大四或者大四以上没看过机器学习也适用。无论是研究智能还是做其他事情,机器学习都是必须的。你看GFW都用机器学习了,咱是不是也得科普一下。(全文结构)其实,我想了想,学一门学科,...
分类:
其他好文 时间:
2014-12-15 23:18:49
阅读次数:
360
主成份分析历史:
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。
通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有...
分类:
编程语言 时间:
2014-12-15 10:29:54
阅读次数:
290
大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!
1、Kaggle简介
Kaggle是一个数据分析的竞赛平台,网址:ht...
分类:
其他好文 时间:
2014-12-15 09:06:09
阅读次数:
642
决策树也是最经常使用的数据挖掘算法,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支)。决策树的生成过程就是一个数据集不断被划分的过程,划分数据集的最大原则是:使无序的数据变的有序。如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化划分方法有多重,其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法,其中C4.5和CART两...
分类:
编程语言 时间:
2014-12-14 20:03:24
阅读次数:
661
1.我的环境 操作系统:32位 Win7 旗舰版 Service Pack 1 2.下载WEKA OSC上WEKA的页面地址:http://www.oschina.net/p/weka 软件首页地址:http://www.cs.waikato.ac.nz/ml/weka/ 各版本Weka运行需要的Java版本,可...
程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大经典原创系列集锦与总结(部分博文github优化版阅读地址:https://github.com/julycoding/The-Art-Of-Programming-By-July)作者:July--结构之法算法之道blog之博主。时间:2010年...
分类:
编程语言 时间:
2014-12-14 00:41:09
阅读次数:
440
1.复旦大学:集中式日志系统让数据挖掘更深入http://www.edu.cn/zxz_6542/20140822/t20140822_1166702.shtml2.基于Hadoop的携程集中式日志系统介绍http://tech.it168.com/a2013/0418/1474/000001474...
分类:
其他好文 时间:
2014-12-12 20:38:09
阅读次数:
187