1、Seq2Seq模型

模型功能：输入一个序列，输出一个序列，并且序列的长度是可变的（长度可变这一点是模型的优势，也是为了解决以前深度学习网络输入输出为固定长度的问题）
模型缺点：输入序列会被压缩成固定大小的上下文向量，会丢失部分细节信息，输入的序列越长这个丢失率越大；由于固定大小的上下文向量的限制，模型难以捕捉到输入间的长期依赖关系。

2、Encoder- Decoder模型

Encoder- Decoder模型是Seq2Seq模型的具体实现

3、Attention

Attention提出是为了解决Encoder- Decoder模型丢失信息的问题。解决办法将输入序列编码成一个向量的序列（Encoder- Decoder模型只会把输入序列编码成一个固定大小的上下文向量）

4、低纬映射到高纬

一句话由单词组成，还有单词见组合成的含义组成，如果值表示单词，可以用一纬空间表示，但是为了表示单词见的含义，就需要多维空间。

以上笔记内容来自datawhale-fun-transformer-task1