10分钟入门PyTorch(2)上一节介绍了简单的线性回归10分钟快速入门PyTorch(1),如何在pytorch里面用最小二乘来拟合一些离散的点,这一节我们将开始简单的logistic回归,介绍图像分类问题,使用的数据是手写字体数据集MNIST。1logistic回归logistic回归简单来说和线性回归是一样的,要做的运算同样是y=w*x+b。logistic回归简单的是做二分类问题,使用s
分类:
其他好文 时间:
2020-11-27 10:54:43
阅读次数:
5
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。下面我们以线性回归算法来对三种梯度下降法进行比较。一般线性回归函数的假设函数为:对应的损失函数为:(这里的1/2是为了后面求导计算方便)下图作为一个二维参数(theta0,theta1)组对应能量函数的可视化图:下面我们来分别讲解三种梯度下降法1批量梯度
分类:
其他好文 时间:
2020-11-27 10:49:35
阅读次数:
5
向量化编程总结记录很多时候,我们在实现算法的时候,总会碰到累和的伪代码:比如下面这个:为了简单我这里只重复5次,但是原理是一样的。很显然我们要得到这个结果,非常简单,比如下面的这段python代码:那么我们有没有更好的办法呢?有的,看到X,Y都是向量,我们很容易想到向量化编程。比如改成下面这段代码:啊上面这段代码,其实最关键的就是一行代码,就是np.dot(X_array,Y_array)这句话,
分类:
其他好文 时间:
2020-11-26 15:21:15
阅读次数:
15
上次文章从广泛意义上说了结构化预测【见下文】闲聊结构化预测(structuredlearning)【这是一类问题】本文聊一下自然语言处理中的结构化预测问题。StructuredPrediction一开始还是说一下结构化预测的概念,结构化预测不是输出一个标量(回归问题)或者一个类别(分类问题),而是输出一个结构,树、图或者其它序列能够互相影响彼此。在自然语言处理中,结构化预测问题有以下几种:Sequ
分类:
编程语言 时间:
2020-11-26 14:57:35
阅读次数:
7
五分钟看懂seq2seqattention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq是一个Encoder–Decoder结构的网络,它的输入是一个序列,输出也是一个序列,Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。-
分类:
其他好文 时间:
2020-11-26 14:57:13
阅读次数:
5
机器学习算法与自然语言处理出品@公众号原创专栏作者huybery学校|东北大学关于自监督学习,知乎上已经有了一些资源,比如师兄@bingo的两篇介绍[2][3]、@NaiyanWang大佬之前做的survey[4]、还有最新的@Sherlock[5]。本来我的这篇分享是准备叫「Self-SupervisedLearning入门介绍」,可惜在写作的过程中@Sherlock老哥抢先一步,所以只能叫「再
分类:
其他好文 时间:
2020-11-26 14:38:02
阅读次数:
6
机器学习算法与自然语言处理出品@公众号原创专栏作者Don.hub单位|京东算法工程师学校|帝国理工大学OutlineIntuitionAnalysisProsConsFromSeq2SeqToAttentionModelseq2seq很重要,但是缺陷也很明显attentionwasbornWritetheencoderanddecodermodelTaxonomyofattentionnumber
分类:
其他好文 时间:
2020-11-26 14:37:40
阅读次数:
4
参数参数分为两种:可学习得到的参数,和超参数。机器学习可以归结为学习一个映射函数f:x→y,将输入变量x映射为输出变量y。一般我们可以假设映射函数为y=f(x,θ)。其中θ即为函数的参数。参数可以通过学习算法进行学习。除了可学习的参数之外,还有一类参数是用来定义模型结构或训练策略的,这类参数叫做超参数(Hyper-Parameter)。超参数和可学习的参数不同,通常是按照人的经验设定,或者通过网格
分类:
其他好文 时间:
2020-11-26 14:22:46
阅读次数:
6
机器学习算法与自然语言处理出品@公众号原创专栏作者刘聪NLP学校|中国药科大学药学信息学硕士知乎专栏|自然语言处理相关论文前几天写了一篇短文本相似度算法研究的文章,不过里面介绍的方法基本上都是基于词向量生成句子向量的方法。今天在这里就介绍一下传统算法TF-IDF是如何计算短文本相似度的。TF-IDF是英文TermFrequency–InverseDocumentFrequency的缩写,中文叫做词
分类:
其他好文 时间:
2020-11-25 12:59:04
阅读次数:
10
机器学习算法与自然语言处理出品@公众号原创专栏作者刘聪NLP学校|NLP算法工程师知乎专栏|自然语言处理相关论文短文本相似度,即求解两个短文本之间的相似程度;它是文本匹配任务或文本蕴含任务的一种特殊形式,返回文本之间相似程度的具体数值。然而在工业界中,短文本相似度计算占有举足轻重的地位。例如:在问答系统任务(问答机器人)中,我们往往会人为地配置一些常用并且描述清晰的问题及其对应的回答,我们将这些配
分类:
编程语言 时间:
2020-11-25 12:58:27
阅读次数:
18