1、多项式分布 2、文本的多项式分布建模3、共轭先验4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型}5、似然函数6、log似然函数7、期望最大化算法8、条件概率9、贝叶斯全公式10、生成模型11、判别模型12、条件期望13、拉格朗日系数14、VSM,LSI,P...
分类:
其他好文 时间:
2014-10-19 21:18:18
阅读次数:
198
抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,...
分类:
Web程序 时间:
2014-08-17 23:59:23
阅读次数:
709
向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。
文档和查询都用向量来表示。
每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值...
分类:
其他好文 时间:
2014-08-06 19:24:42
阅读次数:
632
除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表...
分类:
其他好文 时间:
2014-08-04 14:36:17
阅读次数:
337
1. 设 $f,g$ 是 $[a,b]$ 上的连续函数.(1) 对 $10$, 试证: $$\bex ab\leq \cfrac{1}{p}a^p+\cfrac{1}{q}b^q. \eex$$(2) 设 $\dps{\vsm{n}a_n}$ 为收敛的正项级数, 试证: $\dps{\vsm{n}a...
分类:
其他好文 时间:
2014-07-11 10:08:49
阅读次数:
287
[再寄小读者之数学篇](2014-06-28 证明级数几乎处处收敛)设 $f\in L(\bbR)$, 试证: $$\bex \vsm{n}f(n^2x) \eex$$ 在 $\bbR$ 上几乎处处收敛到一 Lebesgue 函数.[再寄小读者之数学篇](2014-06-27 向量公式: The H...
分类:
其他好文 时间:
2014-07-03 12:23:37
阅读次数:
506
设 $f\in L(\bbR)$, 试证: $$\bex \vsm{n}f(n^2x) \eex$$ 在 $\bbR$ 上几乎处处收敛到一 Lebesgue 函数.证明: 由 $f\in L(\bbR)$ 知 $|f|\in L(\bbR)$ (see [程其襄, 张奠宙, 魏国强, 胡善文, 王漱...
分类:
其他好文 时间:
2014-06-30 13:52:50
阅读次数:
293
Information About ModulesCisco Nexus 1000V manages a data center defined by a VirtualCenter. Each server in the data center is represented as a module...
分类:
其他好文 时间:
2014-06-27 17:04:58
阅读次数:
184
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很
高,那么我们可以认为它们是相同的文本。
对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度
的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离
的计算,比...
分类:
其他好文 时间:
2014-06-02 05:02:30
阅读次数:
500
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:
其他好文 时间:
2014-05-31 12:26:13
阅读次数:
447