Powered by GitBook

seq2seq

1. RNN的基础

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* RNN的引入

RNN和CNN的不同在于，输出和之前的输入相关，引入了记忆

* RNN的输出依赖于，输入和记忆

$$X_t$$是时间 $$t$$ 处的输入
$$Xt$$是时间$$t$$ 处的记忆，$$S_t=f(UX_t + WS{t-1})$$
$$f$$是$$tanh$$等函数
$$O_t$$是时间t处的输出，比如预测下个词，可以是Softmax输出的属于各种候选词的概率

$$O_t = softmax(VS_t)$$

* RNN的注意点

RNN只有一组共享参数$$(U,V,W)$$

2. RNN的应用

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* 语言模型与文本生成

* 机器翻译

* 语言识别

* 图像描述生成

RNN的扩展

http://blog.csdn.net/heyongluoyao8/article/details/48636251

* Bidirectional RNN（双向网络RNN）

输出序列和前后都有关系
理解为，一段话，做完形填空

* Deep RNN

和双向RNN的区别，每一步都是多层

RNN和BPTT

http://www.cnblogs.com/wacc/p/5341670.html

* 和BP不同之处在于，包含时间

* $$E$$是输出误差：每个时间点是一个交叉熵损失

* 求解的目的是：

，更加这个来优化三个参数:$$U,V,W$$$

results matching ""

No results matching ""