solr简介 ????solr是受欢迎的,速度极快的开源企业搜索平台。主要功能包括强大的全文搜索,搜索词高亮显示,分面搜索,近实时的索引,动态聚类,数据库集成,丰富的文件(例如,Word,PDF)处理,和空间搜索。...
分类:
其他好文 时间:
2014-08-21 09:54:54
阅读次数:
228
简要介绍EM算法,并使用EM算法求解两个高斯分布的参数估计问题,使用Python实现代码运行。...
分类:
编程语言 时间:
2014-08-20 22:43:13
阅读次数:
1391
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,本文介绍一下k-means算法并在文本分类上应用。
分类:
其他好文 时间:
2014-08-18 18:08:12
阅读次数:
318
MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。
MALLET包括复杂的用于文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。
除了分类,MALLET包括序列标注的工具,像从文本...
分类:
其他好文 时间:
2014-08-16 11:15:20
阅读次数:
256
1 数据挖掘与数据分析在 !实际工作中! 真的有很大区别甚至是区别吗?我知道一些定义,比如数据分析偏重于统计,而数据挖掘的工作是分类,聚类,是信息的提炼,但是实际工作中是不是往往两方面都在做?分不清,分不开。答:第一个问号你指哪方面有区别?第二个问号,实际工作中是“谁”两方面都在做?给些提示:实际工...
分类:
其他好文 时间:
2014-08-15 23:42:39
阅读次数:
329
//随机产生一个符合正态分布的数 u均数,d为方差 public static double Rand(double u, double d) { double u1, u2, z, x; //Random ram = new...
分类:
其他好文 时间:
2014-08-15 17:42:19
阅读次数:
812
Python 对Facebook用户Friendship的聚类分析...
分类:
编程语言 时间:
2014-08-14 08:17:08
阅读次数:
330
Mahout基于推荐系统,分类,聚类算法等经常用到的相似度度量:PearsonCorrelationSimilarity皮尔森距离EuclideanDistanceSimilarity欧几里德距离CosineMeasureSimilarity余弦距离(0.7变成了UncenteredCosineSimilarity)SpearmanCorrelationSimilarity斯皮尔曼等级相关,排序..
分类:
其他好文 时间:
2014-08-13 19:22:58
阅读次数:
227
【CSWS2014 Summer School】互联网广告中的匹配和排序算法-蒋龙(上)Fig19,用到了矩阵,这个我没有听太明白,蒋博士也没有详细说明。不过可以明确的一点就是,我们常说的K-means、聚类等技术都是有实际应用价值的,而且我们日常就在使用。Fig20,这个定向广告,就更加接近推荐系...
分类:
其他好文 时间:
2014-08-13 00:31:45
阅读次数:
279
今天整理资料时,发现了在学校时做的这个实验,当时整个过程过重偏向依赖分类器方面,而又很难对分类器本身性能进行一定程度的改良,所以最后没有选用这个方案,估计以后也不会接触这类机器学习的东西了,希望它对刚入门的人有点用。
SVM比较适合高维数据的二分类,本来准备对语音特征直接用SVM进行二分类,但是发现样本数据比较多,训练的2天都没有出收敛,最后想用VQ聚类的方法先抽取出具有代...
分类:
其他好文 时间:
2014-08-12 13:35:54
阅读次数:
306