标签:训练 embed nbsp 没有 内存 不同 需要 索引 最可
以下是踩过的坑一览??:
<BEG>
与 <EOF>
),它们会当作预测第一个单词和最后一个单词的输入,比使用 0 效果要好一些这个例子最大的特点是输出的编码使用了 Embedding 的变种,使得编码近似于 binary。传统的做法是使用 onehot + softmax,但随着单词数量增多需要的处理时间和内存大小会暴增,我目前的机器是训练不过来的。输出编码使用 Embedding 变种的好处还有可以同时找出接近的单词,但计算欧几里得距离的效率会比 onehot + softmax 直接得出最可能单词索引的时间差很多。
标签:训练 embed nbsp 没有 内存 不同 需要 索引 最可
原文地址:https://www.cnblogs.com/byjsokl/p/13228686.html