新浪微博数据挖掘菜谱之二: 话题篇 (selenium)...
分类:
其他好文 时间:
2014-12-29 07:46:47
阅读次数:
218
新浪微博数据挖掘菜谱之一: 登录篇 (API)...
近期用shell在处理数据时,发现read命令在读取数据时会把\t替换成空格,以及行末尾的\t舍弃。查看read的help,发现-r可以保留转义字符,搜了一下有人也说可以用-r,但是我的实验结果却是即使-r也还是依旧。无奈该用awk进行的数据处理。使用\t作为数据字段分割符在数据挖掘过程中是经常.....
分类:
其他好文 时间:
2014-12-26 18:31:39
阅读次数:
143
北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEE Computer Society北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室 - PARNEC南京大学机器学习与数据挖掘研究所 - LAM...
分类:
Web程序 时间:
2014-12-26 16:24:13
阅读次数:
212
数据抽象
序列(sequence):表示一个完整的信息流.
数据项(item):序列中最小组成单位的集合
事件(event):通常使用时间戳来表示,用于标识同一个序列内不同数据项之间的前后顺序关系。
在网站分析中,可以使用序列模式的关联分析来研究用户的点击行为流,并衡量页面的体验以及易用性效果。
(该实例来自 李明 《R语言与网站分析》中例子)
读取数据
# (1)使用read....
分类:
其他好文 时间:
2014-12-26 14:48:13
阅读次数:
1036
R中的adabag包均有函数实现bagging和adaboost的分类建模(另外,ipred包中的bagging()函数可以实现bagging回归)。第一题就利用adabag包实现bagging和adaboost建模,并根据预测结果选择最优模型。
a) 为了描述这两种方式,先利用全部数据建立模型:
利用boosting()(原来的adaboost.M1()函数)建立adaboost分...
分类:
其他好文 时间:
2014-12-26 14:42:54
阅读次数:
274
数据源:在以下链接下载酒类化学成分数据,分为红酒,白酒两种数据文件,红酒和白酒在化学成分上有较明显的差异
http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
分析过程:
# 1)先将两组数据混合为一组
# 导入数据源
red
white
# 增加新字段type,1-红酒,2-白酒...
分类:
编程语言 时间:
2014-12-26 14:41:50
阅读次数:
425
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。Yarn是目前公认的最佳的分布式集群资源管理框架; Mahout是目前数据挖掘领域的王者; 工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012...
分类:
其他好文 时间:
2014-12-24 22:41:30
阅读次数:
305
推荐系统植根于不同的研究领域,比如信息检索、信息过滤和文本分类,采用了不同领域的方法,比如机器学习、数据挖掘和基于知识的系统。
《推荐系统》这本书,是一本导读,向读者提供有关这个领域的概述和简介。
在“最新进展”这一部分,介绍了攻击和应对攻击的对策、在线消费决策的理论、新一代互联网技术发展带来的更多可用信息、移动等普适环境的推荐应用等。...
分类:
其他好文 时间:
2014-12-24 16:22:57
阅读次数:
202
《SAS编程与数据挖掘商业案例》学习笔记,本次重点:sas宏变量内容包含:宏变量、宏函数、宏參数、通配函数、字符函数、计算函数、引用函数、宏语句、宏应用1.宏触发器:%name-token:是一个宏语句或宏函数&name-token:是一个宏变量引用宏变量不依赖于sas数据集,能够在不论什么一个除数...
分类:
其他好文 时间:
2014-12-24 11:27:05
阅读次数:
544