码迷,mamicode.com
首页 >  
搜索关键字:数据挖掘    ( 2538个结果
几款开源的中文分词系统
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:其他好文   时间:2014-06-26 22:35:29    阅读次数:298
【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Da...
分类:编程语言   时间:2014-06-26 22:33:33    阅读次数:410
输入法之模型剪枝一(基于熵的剪枝)
prunning,剪枝,顾名思义就是减掉那些不重要的。 从理论上来讲,剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似,有两种算法 entroy-based以及rank-based。 针对model,使用相对熵来刻画D(q||p) 来刻画,保证两个model的熵差别最小,就是entropy-based。如果使用rank(p|q)来描述,保证整个model的rank差别最小...
分类:其他好文   时间:2014-06-26 07:24:00    阅读次数:208
hadoop1-构建电影推荐系统
问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:其他好文   时间:2014-06-25 09:46:57    阅读次数:329
用分区表分区交换做历史数据迁移
一。说明: OLTP中有些表数据量大,而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作,较好的办法是该表采用分区表。比如按时间分区后,可以对分区进行迁移。 通过分区交换和表空间传输会很容易完成,而且性能上影响很小。 关于分区表更多内容:http://blog.csdn.net/tanqingru/article/category/1397435 关于表空间传...
分类:其他好文   时间:2014-06-24 17:21:12    阅读次数:260
数据挖掘会议记录
机器学习顶级会议:NIPS, ICML, UAI, AISTATS;(期刊:JMLR, ML, Trends in ML, IEEE T-NN)计算机视觉和图像识别:ICCV, CVPR, ECCV;(期刊:IEEE T-PAMI, IJCV, IEEE T-IP)人工智能:IJCAI, AAAI;...
分类:其他好文   时间:2014-06-22 23:38:09    阅读次数:324
数据挖掘系列(9)——BP神经网络算法与实践
主要讲述反向传输神经网络(BP)算法的基本流程和自己在训练BP神经网络的一些经验。
分类:其他好文   时间:2014-06-21 17:51:47    阅读次数:252
简要的谈谈文本数据挖掘的一般步骤
[QQ群: 189191838,对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火。现在炒的非常热的大数据,其实也是数据挖掘的一个应用而已,不管工程师用的是Hadoop还是其他平台,其实都是对一堆的数据进行分析,计算,然后得到我们希望得到的结果。所以我们可以知道,文本数据挖掘的必要性是...
分类:其他好文   时间:2014-06-20 21:49:12    阅读次数:255
快速找出故障机器
关心数据挖掘和搜索引擎的程序员都知道,我们需要很多的计算机来存储和处理海量数据。然而,计算机难免出现硬件故障而导致网络联系失败或死机。为了保证搜索引擎的服务质量,我们需要保证每份数据都有多个备份。简单起见,假设每个机器存储一个标号为ID的记录(ID是小于十亿的整数),假设每份数据都保存两个备份,这样...
分类:其他好文   时间:2014-06-20 20:35:53    阅读次数:188
数据挖掘经典算法——最大期望算法
算法定义 最大期望算法(Exception Maximization Algorithm,后文简称EM算法)是一种启发式的迭代算法,用于实现用样本对含有隐变量的模型的参数做极大似然估计。已知的概率模型内部存在隐含的变量,导致了不能直接用极大似然法来估计参数,EM算法就是通过迭代逼近的方式用实际的.....
分类:其他好文   时间:2014-06-20 17:39:58    阅读次数:215
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!