码迷,mamicode.com
首页 >  
搜索关键字:数据挖掘    ( 2538个结果
Weka算法Classifier-tree-J48源码分析(一)算法和基本数据结构
Weka分类树J48源码解析...
分类:其他好文   时间:2014-09-02 00:25:23    阅读次数:256
【转】R中有关数据挖掘的包
下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclus...
分类:其他好文   时间:2014-09-02 00:10:23    阅读次数:314
数据挖掘工具分析北京房价 (一) 数据爬取采集
一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练。从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息,再者可....
分类:其他好文   时间:2014-09-01 22:36:13    阅读次数:834
自制数据挖掘工具分析北京房价 (二) 数据清洗
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:其他好文   时间:2014-09-01 22:32:33    阅读次数:347
加州理工学院公开课:机器学习与数据挖掘_训练与测试(第五课)
课程简介: 本视频为机器学习系列课程第5章。主要定量研究训练与测试之间的关系,并引入学习模型中的一个重要概念--断点。课程深入浅出,从正射线、正区间和凸集三个具体例子入手,寻找突破点,从而得出训练集与测试集的关系。...
分类:其他好文   时间:2014-09-01 19:38:03    阅读次数:158
利用贝叶斯分类器进行文本挖掘---笔记
1.调用庖丁分词器,分词grid@server01:~/data$hadoopjarmrtokenize.jartokenize.TokenizeDriver/home/grid/data/lesson8/home/grid/output/sportwords14/08/3121:59:33INFOinput.FileInputFormat:Totalinputpathstoprocess:10205.....14/08/3122:05:25INFOmapred.JobClient:Map..
分类:其他好文   时间:2014-09-01 15:48:44    阅读次数:296
商品信息数据分析及展现系统
基于数据挖掘技术的智能化数据分析系统设计与开发潍坊物价信息数据分析及展现背景: 商品价格和人们生活息息相关,比如农产品价格波动不仅会对农民收入和农民生产积极性产生直接影响,更关乎百姓的日常生活和切身利益。经常看新闻看到农民辛苦了一个季度的农作物全都烂在地里,因为价格太低廉,或者没有销路。虽然说物价波...
分类:其他好文   时间:2014-08-31 22:43:21    阅读次数:287
ID3算法
ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量...
分类:其他好文   时间:2014-08-31 11:46:11    阅读次数:298
数据挖掘之分类器信息分拣 --- 特征选择之互信息
对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下其意义:由于事件A发生与事件B发生相关联而提供的信息量。在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。以搜狗实验室的语料为例。选取金...
分类:其他好文   时间:2014-08-31 01:38:40    阅读次数:205
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!