4.29

时间：2020-04-29 18:08:02 阅读：91 评论：0 收藏：0 [点我收藏+]

1、数据基数计算：

统计一批数据中不重复元素的个数

2、CNN对于分类任务较为擅长，但是卷积和pool丢失了一些上下文信息，因此在对上下文把握方面，RNN还是更甚一筹。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

pm.

1、佳伟哥做的集成模型就是我能想到的最好的解决方法了，因为review_model2.py并没有充分的使用评论内容的信息，只是对于评论内容做了人工特征的提取，所以在提取的特征之后再添加一个由文本作为特征的对文本进行高效分类的层（佳伟哥用的是LSTM）

然后，再连接一层全连接层进行更深一步的训练，最后连接神经元个数为1的输出层。

我的初步想法：

（1）第一个可以改进的地方是LSTM层，当只是将文本分类作为一个单独的任务的话，有很多可以提升的更为复杂的模型，比如Bi-LSTM, bert(可以直接调用keras bert),一定可以取得更好的效果。

（2）在文本词嵌入的部分，原来的模型直接使用的是特征工程哈希列的方法。可不可以单独训练词向量成one-hot形式呢？将分好词的句子通过CBOW模型得到词向量。不知道结果会不会好一些。

（3）添加dropout，增加模型的鲁棒性，提升模型效率

2、tf.keras.Input

3、tf.keras.layers.Dense（）（x）

如果后边还有一个括号，代表将新构建的层添加到x层之后

4.29

标签：训练结果使用不重复因此好的改进 mode 调用

原文地址：https://www.cnblogs.com/qingchen-forever/p/12803461.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行