CC的博客

  • 首页
  • iOS
  • Android
  • React-Native
  • 读书杂谈
  • About
CC
记录美好生活
  1. 首页
  2. 技术编程
  3. AI
  4. 正文

transformer-task1

2025/02/12

1、Seq2Seq模型

模型功能:输入一个序列,输出一个序列,并且序列的长度是可变的(长度可变这一点是模型的优势,也是为了解决以前深度学习网络输入输出为固定长度的问题)
模型缺点:输入序列会被压缩成固定大小的上下文向量,会丢失部分细节信息,输入的序列越长这个丢失率越大;由于固定大小的上下文向量的限制,模型难以捕捉到输入间的长期依赖关系。

2、Encoder- Decoder模型

Encoder- Decoder模型是Seq2Seq模型的具体实现

3、Attention

Attention提出是为了解决Encoder- Decoder模型丢失信息的问题。解决办法将输入序列编码成一个向量的序列(Encoder- Decoder模型只会把输入序列编码成一个固定大小的上下文向量)

4、低纬映射到高纬

一句话由单词组成,还有单词见组合成的含义组成,如果值表示单词,可以用一纬空间表示,但是为了表示单词见的含义,就需要多维空间。

以上笔记内容来自datawhale-fun-transformer-task1

标签: ai笔记
最后更新:2025/02/12

CC

这个人很懒,什么都没留下

点赞

COPYRIGHT © 2020 CC的博客. ALL RIGHTS RESERVED.

Theme Kratos

豫ICP备2023032048号