我使用VGG 16-Layer Caffe模型用于图像标题,每张图像都有几个标题.现在,我想从这些标题(单词)中生成一个句子. 我在一篇关于LSTM的论文中读到,我应该从训练网络中删除SoftMax层,并将4096特征向量从fc7层直接提供给LSTM. 我是LSTM和RNN的新手. 我应该从哪里开始?是否有任何教程展示如何通过序列标记生成句子?
fc7