地址 https://leetcode-cn.com/problems/sparse-similarity-lcci/ 两个(具有不同单词的)文档的交集(intersection)中元素的个数除以并集(union)中元素的个数,就是这两个文档的相似度。例如,{1, 5, 3} 和 {1, 7, 2, ...
分类:
其他好文 时间:
2020-05-03 13:06:05
阅读次数:
97
One-hot编码 整合成一个稀疏矩阵,那问题来了,稀疏矩阵(二维)和列表(一维)相比,有什么优势? 很明显,计算简单嘛,稀疏矩阵做矩阵计算的时候,只需要把1对应位置的数相乘求和就行,也许你心算都能算出来;而一维列表,你能很快算出来?何况这个列表还是一行,如果是100行、1000行和或1000列呢? ...
分类:
其他好文 时间:
2020-05-03 11:02:51
阅读次数:
61
为什么要进行连续特征离散化 参考 "知乎用户" 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代;这个点理解 1. 稀疏向量内积乘法运算速度快,计算结果方便存 ...
分类:
其他好文 时间:
2020-05-01 16:50:47
阅读次数:
44
本文讲解 skip-gram 模型以及优化和扩展。主要包括层次 Softmax、负采样、学习短语的表示。 先提一下词向量: 词向量(也叫词嵌入,word embedding),简单地说就是用一个低维向量表示一个词。由于独热编码(one-hot encoding)存在维度灾难,即稀疏性,且无法理解词与 ...
分类:
其他好文 时间:
2020-04-30 21:26:52
阅读次数:
67
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 答(1): 1. 增加样本量,这是万能的方法,适用任何模型。 2. 如果数据稀疏,使用L1正则,其他情况,用L2要好,可自己尝试。 3. 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。 4. 如果还过拟合 ...
分类:
其他好文 时间:
2020-04-29 21:48:31
阅读次数:
76
很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高 ...
分类:
其他好文 时间:
2020-04-27 09:27:36
阅读次数:
163
Word2Vec是词的一种表示,将词以固定的维数的向量表示出来。其优点:基于词袋模型的独热编码方式在判定同义词和相似句子的时候效果不是很好,而Word2Vec充分利用上下文信息,对上下文进行训练,每个向量不在是只有一个位置为1,其余位置为0 的稀疏向量。而是稠密的固定维度的向量。实现方式主要有一下两 ...
分类:
其他好文 时间:
2020-04-14 20:32:10
阅读次数:
82
稀疏数组 当一个数组中大部分元素为0,或者为同一值的数组时,可以使用稀疏数组来保存该数组。 处理方式: 记录数组一共有几行几列,有多少个不同值 把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小数组规模 代码实现 ①如何创建稀疏数组? 思路: 1.获取原始二维数组array1的有效值个数 ...
分类:
编程语言 时间:
2020-04-14 15:15:43
阅读次数:
57
SparseMatrix.h #pragma once #include<iostream> using namespace std; class Tri { public: int col; int row; int value; }; class SparseMatrix { public: i ...
分类:
其他好文 时间:
2020-04-13 10:37:44
阅读次数:
62
目录 1、什么是稀疏数组 2、简单使用 3、将稀疏数组存入文件后再读取并还原为二维数组 1、什么是稀疏数组 假如有一个二维数组,里面只存了少数的值,然后我们需要将这个数组持久化到磁盘文件,在此之前请先想想,既然只存了少数的值,那么代表着这个二维数组的大部分位置都是没有值的,那么没有值的这些位置都是无 ...
分类:
编程语言 时间:
2020-04-13 00:43:46
阅读次数:
66