seq2seq
1. RNN的基础
http://blog.csdn.net/heyongluoyao8/article/details/48636251
* RNN的引入
- RNN和CNN的不同在于,输出和之前的输入相关,引入了记忆
* RNN的输出依赖于,输入和记忆
- $$X_t$$是时间 $$t$$ 处的输入
- $$Xt$$是时间$$t$$ 处的记忆,$$S_t=f(UX_t + WS{t-1})$$
- $$f$$是$$tanh$$等函数
- $$O_t$$是时间t处的输出,比如预测下个词,可以是Softmax输出的属于各种候选词的概率
$$O_t = softmax(VS_t)$$
* RNN的注意点
- RNN只有一组共享参数$$(U,V,W)$$
2. RNN的应用
http://blog.csdn.net/heyongluoyao8/article/details/48636251
* 语言模型与文本生成
* 机器翻译
* 语言识别
* 图像描述生成
RNN的扩展
http://blog.csdn.net/heyongluoyao8/article/details/48636251
* Bidirectional RNN(双向网络RNN)
- 输出序列和前后都有关系
- 理解为,一段话,做完形填空
* Deep RNN
- 和双向RNN的区别,每一步都是多层
RNN和BPTT
http://www.cnblogs.com/wacc/p/5341670.html
* 和BP不同之处在于,包含时间
* $$E$$是输出误差: 每个时间点是一个交叉熵损失
* 求解的目的是:
,更加这个来优化三个参数:$$U,V,W$$$