seq2seq


1. RNN的基础

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* RNN的引入

  • RNN和CNN的不同在于,输出和之前的输入相关,引入了记忆

* RNN的输出依赖于,输入和记忆

  • $$X_t$$是时间 $$t$$ 处的输入
  • $$Xt$$是时间$$t$$ 处的记忆,$$S_t=f(UX_t + WS{t-1})$$
  • $$f$$是$$tanh$$等函数
  • $$O_t$$是时间t处的输出,比如预测下个词,可以是Softmax输出的属于各种候选词的概率

$$O_t = softmax(VS_t)$$

* RNN的注意点

  • RNN只有一组共享参数$$(U,V,W)$$


2. RNN的应用

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* 语言模型与文本生成

* 机器翻译

* 语言识别

* 图像描述生成


RNN的扩展

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* Bidirectional RNN(双向网络RNN)

  • 输出序列和前后都有关系
  • 理解为,一段话,做完形填空

* Deep RNN

  • 和双向RNN的区别,每一步都是多层

RNN和BPTT

http://www.cnblogs.com/wacc/p/5341670.html

* 和BP不同之处在于,包含时间

* $$E$$是输出误差: 每个时间点是一个交叉熵损失

* 求解的目的是:

,更加这个来优化三个参数:$$U,V,W$$$


results matching ""

    No results matching ""