搜索关键字：数据挖掘，搜索到2538个结果！码迷,mamicode.com！

几款开源的中文分词系统

中文分词是做好中文内容检索、文本分析的基础，主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位，而词与词之间并不像英语一样有空格来分隔，因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理...

分类：其他好文时间：2014-06-26 22:35:29 阅读次数：298

【机器学习算法-python实现】决策树-Decision tree（1）信息熵划分数据集

(转载请注明出处：http://blog.csdn.net/buptgshengod)1.背景决策书算法是一种逼近离散数值的分类算法，思路比較简单，并且准确率较高。国际权威的学术组织，数据挖掘国际会议ICDM （the IEEE International Conference on Da...

分类：编程语言时间：2014-06-26 22:33:33 阅读次数：410

输入法之模型剪枝一(基于熵的剪枝)

prunning，剪枝，顾名思义就是减掉那些不重要的。从理论上来讲，剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似，有两种算法 entroy-based以及rank-based。针对model，使用相对熵来刻画D(q||p) 来刻画，保证两个model的熵差别最小，就是entropy-based。如果使用rank(p|q)来描述，保证整个model的rank差别最小...

分类：其他好文时间：2014-06-26 07:24:00 阅读次数：208

hadoop1-构建电影推荐系统

问题导读：1. 推荐系统概述；2. 推荐系统指标设计；3. Hadoop并行算法；4. 推荐系统架构；5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛，把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛，让企业界和学科界有了更深层次的技术碰撞。引发...

分类：其他好文时间：2014-06-25 09:46:57 阅读次数：329

用分区表分区交换做历史数据迁移

一。说明： OLTP中有些表数据量大，而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作，较好的办法是该表采用分区表。比如按时间分区后，可以对分区进行迁移。通过分区交换和表空间传输会很容易完成，而且性能上影响很小。关于分区表更多内容：http://blog.csdn.net/tanqingru/article/category/1397435 关于表空间传...

分类：其他好文时间：2014-06-24 17:21:12 阅读次数：260

数据挖掘会议记录

机器学习顶级会议：NIPS, ICML, UAI, AISTATS;（期刊：JMLR, ML, Trends in ML, IEEE T-NN）计算机视觉和图像识别：ICCV, CVPR, ECCV;（期刊：IEEE T-PAMI, IJCV, IEEE T-IP）人工智能：IJCAI, AAAI;...

分类：其他好文时间：2014-06-22 23:38:09 阅读次数：324

数据挖掘系列（9）——BP神经网络算法与实践

主要讲述反向传输神经网络(BP)算法的基本流程和自己在训练BP神经网络的一些经验。

分类：其他好文时间：2014-06-21 17:51:47 阅读次数：252

简要的谈谈文本数据挖掘的一般步骤

[QQ群: 189191838，对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火。现在炒的非常热的大数据，其实也是数据挖掘的一个应用而已，不管工程师用的是Hadoop还是其他平台，其实都是对一堆的数据进行分析，计算，然后得到我们希望得到的结果。所以我们可以知道，文本数据挖掘的必要性是...

分类：其他好文时间：2014-06-20 21:49:12 阅读次数：255

快速找出故障机器

关心数据挖掘和搜索引擎的程序员都知道，我们需要很多的计算机来存储和处理海量数据。然而，计算机难免出现硬件故障而导致网络联系失败或死机。为了保证搜索引擎的服务质量，我们需要保证每份数据都有多个备份。简单起见，假设每个机器存储一个标号为ID的记录（ID是小于十亿的整数），假设每份数据都保存两个备份，这样...

分类：其他好文时间：2014-06-20 20:35:53 阅读次数：188

数据挖掘经典算法——最大期望算法

算法定义最大期望算法（Exception Maximization Algorithm，后文简称EM算法）是一种启发式的迭代算法，用于实现用样本对含有隐变量的模型的参数做极大似然估计。已知的概率模型内部存在隐含的变量，导致了不能直接用极大似然法来估计参数，EM算法就是通过迭代逼近的方式用实际的.....

分类：其他好文时间：2014-06-20 17:39:58 阅读次数：215

共2538条上一页 1 ... 245 246 247 248 249 ... 254 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)