中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:
其他好文 时间:
2014-06-26 22:35:29
阅读次数:
298
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Da...
分类:
编程语言 时间:
2014-06-26 22:33:33
阅读次数:
410
prunning,剪枝,顾名思义就是减掉那些不重要的。
从理论上来讲,剪枝达到的效果就是剪枝后的q和剪枝前的 p 最大化相似,有两种算法 entroy-based以及rank-based。
针对model,使用相对熵来刻画D(q||p) 来刻画,保证两个model的熵差别最小,就是entropy-based。如果使用rank(p|q)来描述,保证整个model的rank差别最小...
分类:
其他好文 时间:
2014-06-26 07:24:00
阅读次数:
208
问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:
其他好文 时间:
2014-06-25 09:46:57
阅读次数:
329
一。说明:
OLTP中有些表数据量大,而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作,较好的办法是该表采用分区表。比如按时间分区后,可以对分区进行迁移。
通过分区交换和表空间传输会很容易完成,而且性能上影响很小。
关于分区表更多内容:http://blog.csdn.net/tanqingru/article/category/1397435
关于表空间传...
分类:
其他好文 时间:
2014-06-24 17:21:12
阅读次数:
260
机器学习顶级会议:NIPS, ICML, UAI, AISTATS;(期刊:JMLR, ML, Trends in ML, IEEE T-NN)计算机视觉和图像识别:ICCV, CVPR, ECCV;(期刊:IEEE T-PAMI, IJCV, IEEE T-IP)人工智能:IJCAI, AAAI;...
分类:
其他好文 时间:
2014-06-22 23:38:09
阅读次数:
324
主要讲述反向传输神经网络(BP)算法的基本流程和自己在训练BP神经网络的一些经验。
分类:
其他好文 时间:
2014-06-21 17:51:47
阅读次数:
252
[QQ群: 189191838,对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火。现在炒的非常热的大数据,其实也是数据挖掘的一个应用而已,不管工程师用的是Hadoop还是其他平台,其实都是对一堆的数据进行分析,计算,然后得到我们希望得到的结果。所以我们可以知道,文本数据挖掘的必要性是...
分类:
其他好文 时间:
2014-06-20 21:49:12
阅读次数:
255
关心数据挖掘和搜索引擎的程序员都知道,我们需要很多的计算机来存储和处理海量数据。然而,计算机难免出现硬件故障而导致网络联系失败或死机。为了保证搜索引擎的服务质量,我们需要保证每份数据都有多个备份。简单起见,假设每个机器存储一个标号为ID的记录(ID是小于十亿的整数),假设每份数据都保存两个备份,这样...
分类:
其他好文 时间:
2014-06-20 20:35:53
阅读次数:
188
算法定义 最大期望算法(Exception Maximization Algorithm,后文简称EM算法)是一种启发式的迭代算法,用于实现用样本对含有隐变量的模型的参数做极大似然估计。已知的概率模型内部存在隐含的变量,导致了不能直接用极大似然法来估计参数,EM算法就是通过迭代逼近的方式用实际的.....
分类:
其他好文 时间:
2014-06-20 17:39:58
阅读次数:
215