对于上次说的LSA模型,它能解决多个单词一个意义,但是不能解决多个意义一个单词,就是多义词的问题,而PLSA模型能较好的解决这个问题,首先说下,这个模型的假设:
1 假设生成一个单词的过程是这样的:首先选择一篇文章di,然后再次基础上选择一个潜变量zk,最后在此基础上再在选择一个单词。如果p(di,wj)表示第i个文本中第j个单词的概率,根据假设有:
2 另外一个非常重要的假设是,单词wj...
分类:
其他好文 时间:
2014-12-13 21:55:00
阅读次数:
308
首先介绍下在lucene中attributeSource的类层次:
org.apache.lucene.util.AttributeSource
· org.apache.lucene.analysis.TokenStream (implementsjava.io.Closeable)
· org.apache.lucene.analysis.NumericTok...
分类:
其他好文 时间:
2014-12-11 19:14:11
阅读次数:
388
几个月前偶然发现一个用于SSAS OLAP数据分析的Excel插件SmartPivot,都是非常实用的功能,如果你的BI解决方案是采用SSAS,那么请看看这个东西,一定会对你有很多启发,如果你的BI Report客户端采用的是Excel,那么这简直就是居家必备的绝配工具,最近几个月我用零碎的时间模仿...
分类:
其他好文 时间:
2014-12-11 11:47:36
阅读次数:
228
Principal Component Analysis算法优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:不一定需要,且可能损失有用的信息适用数据类型:数值型数据算法思想:降维的好处:使得数据集更易使用降低很多算法计算开销去除噪声使得结果易懂主成分分析(principal componen...
分类:
其他好文 时间:
2014-12-11 00:06:46
阅读次数:
259
步骤1:检查 SQL Server 2008 R2 Analysis Services 实例的“程序”文件夹。如果您找到了现有安装或之前安装的证据,则执行剩余步骤。否则,直接执行步骤 2:安装 PowerPivot for SharePoint。在具有管理权限的情况下,使用记事本编辑 setup10...
分类:
其他好文 时间:
2014-12-10 12:08:56
阅读次数:
226
本文是对《IPython Interactive Computing and Visualization Cookbook》一书中第七章【Introduction to statistical data analysis in Python – frequentist and Bayesian me...
分类:
其他好文 时间:
2014-12-09 21:08:18
阅读次数:
307
In this Document
Purpose
Troubleshooting Steps
References
APPLIES TO:
Oracle Database - Enterprise Edition - Version 8.0.6.3 and later
Inform...
分类:
其他好文 时间:
2014-12-09 19:39:44
阅读次数:
307
??
1 Lucene卡发包结构分析
包名
功能
org.apache.lucene.analysis
Analysis提供自带的各种Analyzer
org.apache.lucene.collation
包含collationKey...
1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:
其他好文 时间:
2014-12-07 06:28:10
阅读次数:
171
Dsicussion on modeling an elevatorhttp://stackoverflow.com/questions/493276/modelling-an-elevator-using-object-oriented-analysis-and-design/12457431#1...
分类:
其他好文 时间:
2014-12-07 06:27:42
阅读次数:
143