被改错的密码[从格式和长度来推测出是MD5] 迷醉。。人生第一道ctf题?据说是因为看起来像是MD5加密的格式,但是数了一下发现有33个字符,就推测???熊孩子多敲了一位进去。从32个变33个了,然后一个个放这个MD5在线解密的地方http://cmd5.com/去试。。 发现cca9cc444e6 ...
分类:
其他好文 时间:
2016-09-19 19:19:41
阅读次数:
117
http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html ...
分类:
其他好文 时间:
2016-09-13 16:33:40
阅读次数:
111
转自:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF ...
分类:
编程语言 时间:
2016-09-08 16:03:12
阅读次数:
236
在文本聚类、文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn。文章包括:一.Scikit-learn概念 1.概念知识 2.安装软件; 二.TF-IDF基础知识 1.TF-IDF 2.举例介绍; 三.TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.示例
希望文章对你有所帮助~...
分类:
编程语言 时间:
2016-08-08 17:43:13
阅读次数:
2975
写了很久忘保存了,囧没了,先放这里 catalogue 1. TF-IDF Relevant Link: 2. 基于空间向量的余弦算法 3. 最长公共子序列该算法的最大缺陷是计算CPU消耗较大 为进一步提升该算法,我们可以将字符相同节点的值加上左上角(d[i-1,j-1])的值,这样即可获得最大公共 ...
分类:
编程语言 时间:
2016-08-05 15:28:26
阅读次数:
225
通过MapReduce实现 TF-IDF值的统计 数据:文章ID 文件内容 结果数据: 在整个的处理过程中通过两步来完成 第一步主要生成三种格式的文件 1、使用分词工具将文章内容进行拆分成多个词条;并记录文章的总词条数 关于分词工具的使用请参考 TF-IDF第一步处理后结果: 2、记录词条在多少篇文 ...
分类:
其他好文 时间:
2016-07-22 18:58:47
阅读次数:
559
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外, ...
分类:
其他好文 时间:
2016-07-21 18:02:08
阅读次数:
118
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术,。 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 ...
分类:
编程语言 时间:
2016-07-11 18:40:04
阅读次数:
1074
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:
其他好文 时间:
2016-06-29 20:40:42
阅读次数:
501
本文要说的 TF-IDF 分布式实现,运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。...
分类:
其他好文 时间:
2016-06-24 01:54:41
阅读次数:
419