[现代信息检索]搜索引擎大作业一、题目要求:新闻搜索:定向采集3-4个体育新闻网站,实现这些网站信息的抽取、索引和检索。网页数目不少于10万条。能按相关度、时间、热度(需要自己定义)等属性进行排序,能实现相似新闻的自动聚类。二、题目分析题目分析:我们将任务分解为四个部分:新闻数据的爬取、倒排索引的构...
分类:
其他好文 时间:
2015-01-02 10:54:50
阅读次数:
348
Louvain算法主要针对文献[1]的一种实现,它是一种基于模块度的图算法模型,与普通的基于模块度和模块度增益不同的是,该算法速度很快,而且对一些点多边少的图,进行聚类效果特别明显,本文用的画图工具是Gephi,从画图的效果来说,提升是很明显的。
分类:
编程语言 时间:
2015-01-02 01:07:12
阅读次数:
6571
聚类模型属于飞溅读式挖掘模型,以用户属性、行为、消费等特征数据为输入,将用户自动聚类为若干类,通常用来挖掘潜在目标客户群体,也可以用在大数据营销工具、CRM工具和防欺诈解决方案上。
分类预测模型分析学习历史数据经验,预测分析未来数据发展方向。模型输出是离散数据或类别的称为分类模型,模型输出是数值类型数据的模型称为数值预测模型。分类模型根据训练数据集的类别号属性,学习现有分类数据的分类规...
分类:
其他好文 时间:
2014-12-31 16:22:19
阅读次数:
161
(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索...
分类:
数据库 时间:
2014-12-30 19:00:03
阅读次数:
183
数据源:在以下链接下载酒类化学成分数据,分为红酒,白酒两种数据文件,红酒和白酒在化学成分上有较明显的差异
http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
分析过程:
# 1)先将两组数据混合为一组
# 导入数据源
red
white
# 增加新字段type,1-红酒,2-白酒...
分类:
编程语言 时间:
2014-12-26 14:41:50
阅读次数:
425
斯坦福NG机器学习:K-means笔记 ,无监督学习:经典聚类算法...
分类:
其他好文 时间:
2014-12-25 23:40:41
阅读次数:
203
从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning &Recommend Search交流新群:172114338)引言 近期在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描写叙述下自己所知道的几种分类或聚类算法(当然,这全...
分类:
编程语言 时间:
2014-12-25 22:05:08
阅读次数:
372
Mean Shift,我们 翻译为“均值飘移”。其在聚类,图像平滑。图像切割和跟踪方面得到了比較广泛的应用。因为本人眼下研究跟踪方面的东西,故此主要介绍利用Mean Shift方法进行目标跟踪,从而对MeanShift有一个比較全面的介绍。 (下面某些部分转载常峰学长的“Mean Shift概述”)...
分类:
其他好文 时间:
2014-12-24 21:26:08
阅读次数:
238
Mean Shift,我们 翻译为“均值飘移”。其在聚类,图像平滑。图像切割和跟踪方面得到了比較广泛的应用。因为本人眼下研究跟踪方面的东西,故此主要介绍利用Mean Shift方法进行目标跟踪,从而对MeanShift有一个比較全面的介绍。 (下面某些部分转载常峰学长的“Mean Shift概述”)...
分类:
其他好文 时间:
2014-12-24 11:15:53
阅读次数:
308
1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出3、分类与回归: 分...
分类:
其他好文 时间:
2014-12-24 06:24:16
阅读次数:
110