题目链接:http://ctf.idf.cn/index.php?g=game&m=article&a=index&id=34一恒河沙中有三千世界,一张图里也可以有很多东西。不多说了,答案是这个图片包含的那句英文的所有单词的首字母。首字母中的首字母要大写,答案格式是wctf{一坨首字母}加油吧少年!...
分类:
其他好文 时间:
2015-06-13 21:30:46
阅读次数:
206
题目链接:http://ctf.idf.cn/index.php?g=game&m=list&a=index&id=161.被改错的密码从前有一个熊孩子入侵了一个网站的数据库,找到了管理员密码,手一抖在数据库中修改了一下,现在的密码变成了 cca9cc444e64c8116a30la00559c04...
分类:
其他好文 时间:
2015-06-13 12:48:35
阅读次数:
151
1. TF-IDF的误区
TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。
1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀...
分类:
其他好文 时间:
2015-06-04 19:27:23
阅读次数:
1273
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果...
分类:
其他好文 时间:
2015-06-02 12:54:29
阅读次数:
143
概念TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。逆向文件频率 (inverse ...
分类:
其他好文 时间:
2015-05-21 17:01:55
阅读次数:
161
参考:http://www.cnblogs.com/ywl925/p/3275878.html这个模型主要用于信息检索,但它的思想用于图像也未尝不可。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类...
分类:
其他好文 时间:
2015-05-18 16:00:33
阅读次数:
110
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:
其他好文 时间:
2015-05-09 20:15:03
阅读次数:
136
数学之美之TF-IDF算法
By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。
吴军博士在《数学之美》一书中提到如何使用TF-IDF算法进行确定网页和查询的相关性判断。我在这里给出自己学习的笔记。
相关名称:
TF-IDF(term frequency–inversedocum...
分类:
编程语言 时间:
2015-05-08 20:23:36
阅读次数:
373