1、Seq2Seq模型
模型功能:输入一个序列,输出一个序列,并且序列的长度是可变的(长度可变这一点是模型的优势,也是为了解决以前深度学习网络输入输出为固定长度的问题)
模型缺点:输入序列会被压缩成固定大小的上下文向量,会丢失部分细节信息,输入的序列越长这个丢失率越大;由于固定大小的上下文向量的限制,模型难以捕捉到输入间的长期依赖关系。
2、Encoder- Decoder模型
Encoder- Decoder模型是Seq2Seq模型的具体实现
3、Attention
Attention提出是为了解决Encoder- Decoder模型丢失信息的问题。解决办法将输入序列编码成一个向量的序列(Encoder- Decoder模型只会把输入序列编码成一个固定大小的上下文向量)
4、低纬映射到高纬
一句话由单词组成,还有单词见组合成的含义组成,如果值表示单词,可以用一纬空间表示,但是为了表示单词见的含义,就需要多维空间。
以上笔记内容来自datawhale-fun-transformer-task1