RNN的例子和解释

https://zybuluo.com/hanbingtao/note/541458


1. 语言模型

  • 语言模型就是这样的东西:给定一个一句话前面的部分,预测接下来最有可能的一个词是什么。
  • 使用RNN之前,语言模型主要是采用N-Gram
  • 4-Gram模型就会占用海量的存储空间。

2 . RNN基础

  • $$O_t=g(VS_t)$$
  • $$St=f(UX_t+WS{t-1})$$

  • 式1是输出层的计算公式,输出层是一个全连接层,V是输出层的权重矩阵,g是激活函数。

  • 式2是隐藏层的计算公式,它是循环层。U是输入x的权重矩阵,W是上一次的值作为这一次的输入的权重矩阵,f是激活函数。

  • 循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

  • RNN的输出值$$Ot$$, 受到前面历次输入值$$X_t,X{t-1},...的影响$$,这就是循环神经网络可以向前看任意个输入值的原因

3 双向 RNN

4 深度 RNN


5 .BPTT


6. RNN的梯度爆炸和消失问题

  • https://zybuluo.com/hanbingtao/note/541458

  • RNNs并不能很好的处理较长的序列。一个主要的原因是,RNN在训练中很容易发生梯度爆炸和梯度消失,这导致训练时梯度不能在较长序列中一直传递下去,从而使RNN无法捕捉到长距离的影响。


7. 例子

* 基于RNN的语言模型

results matching ""

    No results matching ""