搜索关键字：idf，搜索到581个结果！码迷,mamicode.com！

IDF实验室：牛刀小试

被改错的密码[从格式和长度来推测出是MD5] 迷醉。。人生第一道ctf题？据说是因为看起来像是MD5加密的格式，但是数了一下发现有33个字符，就推测？？？熊孩子多敲了一位进去。从32个变33个了，然后一个个放这个MD5在线解密的地方http://cmd5.com/去试。。发现cca9cc444e6 ...

分类：其他好文时间：2016-09-19 19:19:41 阅读次数：117

tf-idf 解释

http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html ...

分类：其他好文时间：2016-09-13 16:33:40 阅读次数：111

TF-IDF算法原理

转自：http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html 概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF ...

分类：编程语言时间：2016-09-08 16:03:12 阅读次数：236

[python] 使用scikit-learn工具计算文本TF-IDF值

在文本聚类、文本分类或者比较两个文档相似程度过程中，可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具：scikit-learn。文章包括：一.Scikit-learn概念 1.概念知识 2.安装软件；二.TF-IDF基础知识 1.TF-IDF 2.举例介绍；三.TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.示例希望文章对你有所帮助~...

分类：编程语言时间：2016-08-08 17:43:13 阅读次数：2975

PHP相似度算法

写了很久忘保存了，囧没了，先放这里 catalogue 1. TF-IDF Relevant Link: 2. 基于空间向量的余弦算法 3. 最长公共子序列该算法的最大缺陷是计算CPU消耗较大为进一步提升该算法，我们可以将字符相同节点的值加上左上角(d[i-1，j-1])的值，这样即可获得最大公共 ...

分类：编程语言时间：2016-08-05 15:28:26 阅读次数：225

MapReduce -- TF-IDF

通过MapReduce实现 TF-IDF值的统计数据：文章ID 文件内容结果数据：在整个的处理过程中通过两步来完成第一步主要生成三种格式的文件 1、使用分词工具将文章内容进行拆分成多个词条；并记录文章的总词条数关于分词工具的使用请参考 TF-IDF第一步处理后结果： 2、记录词条在多少篇文 ...

分类：其他好文时间：2016-07-22 18:58:47 阅读次数：559

TF-IDF

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外， ...

分类：其他好文时间：2016-07-21 18:02:08 阅读次数：118

tfidf算法原理

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术,。 TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。 ...

分类：编程语言时间：2016-07-11 18:40:04 阅读次数：1074

特征工程

L1正则化和L2正则化的区别：L1起截断作用，L2起缩放作用（不让参数θ过大）数据和特征处理数据清洗正负样本不平衡的处理方法：上采样，下采样，修改损失函数数值型特征：幅度调整，归一化，离散化类别型特征：one-hot 编码组合特征文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...

分类：其他好文时间：2016-06-29 20:40:42 阅读次数：501

MapReduce 应用：TF-IDF 分布式实现

本文要说的 TF-IDF 分布式实现，运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。...

分类：其他好文时间：2016-06-24 01:54:41 阅读次数：419

共581条上一页 1 ... 45 46 47 48 49 ... 59 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)