码迷,mamicode.com
首页 > 其他好文 > 详细

文本分类之fastText

时间:2020-05-05 00:54:14      阅读:67      评论:0      收藏:0      [点我收藏+]

标签:官方   没有   inf   str   bsp   通过   label   统计信息   ext   

1.理论  

https://zhuanlan.zhihu.com/p/25928551

关键是你要总结住啊。任何技术都有它关键的点,创新点吧或者有效点,这点你要知道你要掌握。

 2.论文《Bag of Tricks for Efficient Text Classification》

概览:模型直接学习句子的表示,我们表明,通过合并其他统计信息(例如使用n-gram袋),我们可以减小线性模型与深度模型之间的准确性差距,而数量级的速度更快。

技术图片

 

将句子中的词向量取均值,然后softmax得到句子的label进行文本分类,这样虽然没有考虑词序,说明句子和句意之间也许没有那么复杂的非线性关系。

上图中所示的是d维的一层隐层结构,那hidden里到底是什么结构呢???论文中有提到它has 10 hidden units,也就是10个神经元的意思吧,hidden也取了50和200。

3.fasttext官方教程学习 

 https://fasttext.cc/docs/en/supervised-tutorial.html,我觉得还是能从这里学到很多内容的! 

 但是这个它的底层使用C写的,所以就很快,然后很难看懂啊!

总体的意思是说不必要进行那么多的非线性转换。

4.层次softmax

 

文本分类之fastText

标签:官方   没有   inf   str   bsp   通过   label   统计信息   ext   

原文地址:https://www.cnblogs.com/BlueBlueSea/p/12828875.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!