例1,数据点聚类:AP应用到25个二维数据中,使用负平法误差作为相似度 聚类数目不用预先指定 AP的一个优点是聚类数目不用预先指定,而是在消息传递方法中慢慢浮现,取决于输入参考度(preference),这种自动模型的选择,基于先验指定每一个数据点有多合适作为exemplar。 下图表示输入常量参考 ...
分类:
其他好文 时间:
2017-05-20 23:43:56
阅读次数:
419
关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也... ...
分类:
编程语言 时间:
2017-05-18 18:50:48
阅读次数:
1052
最近在做词语的相似度做比较,就选用了gensim 首先要安装gensim库,此处省略,参看官网http://radimrehurek.com/gensim/install.html 在网上下了一些词库 {"date": "2016-05-01", "content": "京东家电 沸腾五一\n买家电 ...
分类:
编程语言 时间:
2017-05-17 13:51:05
阅读次数:
275
0 推荐技术 1)协同过滤: (1)基于user的协同过滤:根据历史日志中用户年龄,性别,行为,偏好等特征计算user之间的相似度,根据相似user对item的评分推荐item。缺点:新用户冷启动问题和数据稀疏不能找到置信的相似用户进行推荐。 (2)基于item的协同过滤:根据item维度的特征计算 ...
分类:
其他好文 时间:
2017-05-17 00:50:32
阅读次数:
735
亲和性分析根据样本个体之间的相似度,确定它们关系的亲疏。应用场景: 1.向网站用户提供多样化的服务或投放定向广告。 2.为了向用户推荐电影或商品 3.根据基因寻找有亲缘关系的人 比如:统计顾客购买了商品1,然后再购买商品2的比率,算相似度。 ...
分类:
其他好文 时间:
2017-05-13 23:23:59
阅读次数:
261
SQL Server 常用函数使用方法(持续更新) 之前就想要把一些 SQL 的常用函数记录下来,不过一直没有实行。。。嘿嘿。。。 直到今天用到substring()这个函数,C# 里面这个方法起始值是 0,而 SQL 里面起始值是 1。傻傻分不清楚。。。 这篇博客作为记录 SQL 的函数的使用方法 ...
分类:
数据库 时间:
2017-05-12 13:13:06
阅读次数:
240
【Alpha阶段】测试报告 1、测试找出的BUG (1)、这种情况刷新就好 (2)、文件必须10个才行,多余10个的部分不会进入查重的部分,少于会出错; (3)、文件保存在d:\files,由于有些原因,文件读取只能在d:\files下面,其他的会报错; (4)、上传的文件必须要是 .docx模式的 ...
分类:
其他好文 时间:
2017-05-07 22:07:09
阅读次数:
271
对于输入x,类别标签Y: 判别模型:由数据直接学习决策面Y=f(x)或条件概率P(Y|x)作为预测模型 生成模型:由数据学习联合概率分布P(x,Y),然后求出条件概率P(Y|x)作为预测模型 模型区别: 判别模型寻找不同类别之间的分离面,反映不同类别之间的差异。 生成模型通过统计反映同类数据的相似度 ...
分类:
其他好文 时间:
2017-05-02 23:34:38
阅读次数:
175
题意:两个整数集合,它们的相似度定义为:nc/nt*100%nc为两个集合都有的整数nt为两个集合一共有的整数注意这里的整数都是各不相同的,即重复的不考虑在内。给出n个整数集合,和k个询问,让你输出每个询问中两个集合的相似度。 因为数值范围在[0,10^9],开不了这么大的数组来标记某个数的出现,所 ...
分类:
其他好文 时间:
2017-04-25 22:21:30
阅读次数:
191
一、Daily Scrum Meeting照片 二、燃尽图 注:由于前两天燃尽图制作不准确,所以重新制作一个,现已由工作量改为功能数,工作日从今天开始。 三、项目进展 功能: 算法这一块已全部完成 文件导入功能也完成了 四、困难与问题 1、网上有各种不同的文件对比相似度算法,经老师提示我们选择了余弦 ...
分类:
其他好文 时间:
2017-04-25 22:20:54
阅读次数:
176