simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:
其他好文 时间:
2014-05-26 06:38:50
阅读次数:
258
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
基础练习 阶乘计算
时间限制:1.0s 内存限制:512.0MB
问题描述
输入一个正整数n,输出n!的值。
其中n!=1*2*3*…*n。
算法描述
n!可能很大,而计算机能表示的整数范围有限,需要使用高精度计算的方法。使用一个数组A来表示一个大整数a,A[0]表示a的个位,A[1]表示a的十位,依次类推。
将a乘以一个整数k...
分类:
其他好文 时间:
2014-05-26 05:27:07
阅读次数:
271
SJ图论很流弊,为了省赛队里知识尽量广,我就直接把图continue,现在回顾起来丫的全忘了,从头开始吧。
先写写图的存储,再写写最小生成树和最短路的几个经典算法,月球美容计划就可以结束了。0 0,拖了好久,还有很多内容要写。- -
这次总结了邻接矩阵,邻接表,十字链表,邻接多重表,边集数组,这5种常用的图的储存结构,也许能当模板用吧。...
分类:
其他好文 时间:
2014-05-26 04:59:36
阅读次数:
170
“人不犯我,我不犯人;人若犯我,我必犯人。”谁都不愿被人欺负,有仇必报,是人之常情,可你还是先等一下,再实施你的复仇计划为好。
哪怕像乌龟一样活下去,也不应有任何轻生之念。人们常说,三十年河东,三十年河西,而更精确的说法是人的境况每七年便有新的改善。如果你觉得实在无法等下去了,那也应该先等七年再说。人生之中,什么样的奇迹都会发生。君子报仇,十年不晚,何况七年哉!
从杂志上读...
分类:
其他好文 时间:
2014-05-26 04:02:38
阅读次数:
218
专题开发十三:JEECG微云快速开发平台-附录...
分类:
其他好文 时间:
2014-05-26 03:12:44
阅读次数:
271
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。
想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:
其他好文 时间:
2014-05-25 01:46:44
阅读次数:
246
Given an array S of n integers, find three integers in S such that the sum is closest to a given number, target. Return the sum of the three integers. You may assume
that each input would have exact...
分类:
其他好文 时间:
2014-05-24 20:43:37
阅读次数:
341
Kepler(开普勒,1571年12月27日-1630年11月15日),德国天文学家、数学家,十七世纪科学革命的关键人物。这样一位伟大的人物在1611年遇到一个问题,他的夫人患匈牙利斑疹伤寒(Hungarian
spotted feve)过世,为了照顾孩子、打理家务,Kepler 需要重新寻找一位夫...
分类:
其他好文 时间:
2014-05-24 13:22:40
阅读次数:
331
很多人觉得jquery、ext等一些开源js源代码
十分的晦涩,读不懂,遇到问题需要调试也很费劲。其实我个人感觉主要是有几个方面的原因:1、对一些js不常用的语法、操作符不熟悉2、某个function中又嵌套了一些内部的function,使得整个代码的层次结构不像java代码那么清晰。3、js中允许...
分类:
Web程序 时间:
2014-05-24 12:04:41
阅读次数:
446