【Transformer】从零详细解读

2024-08-02 04:19:19

本文是对B站视频“transformer从零详细解读”的笔记，视频：https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1

一、概述

TRM在做一个什么事情？

transformer包含encoder和decoder

encoder和decoder分别有六个

原论文中transformer模型结构

encoder包含以下三个部分:

二、位置编码

encoder输入部分：

1. Embedding

2. 位置嵌入

为什么需要？

位置编码公式

将词向量和位置编码相加作为模型的输入

引申一下为什么位置嵌入会有用

但是这种相对位置信息会在注意力机制那里消失

三、多头注意力机制

1. 注意力机制

1.1 基本的注意力机制

经典的注意力机制的图，颜色深的表示很受关注，浅的表示不怎么受关注。

1.2 在TRM中怎么操作

原论文中注意力机制的计算公式：

从公式角度来看：拿上面的图片举例子

两个向量越相似，点乘结果越大。

再举个栗子

四、残差和layerNorm

五、前馈神经网络

来源：https://www.icode9.com/content-4-907751.html

赞 (0)

Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

作者丨Happy 编辑丨极市平台极市导读来自Transformer的降维打击!北京大学等最新发布论文,联合提出图像处理Transformer.通过对low-level计算机视觉任务,如降噪.超分. ...
以自注意力机制破局Transformer

各位好久不见,这段时间因工作项目加上家中大事,停更一段时间,细节略过不表. 本文针对Transformer进行重新梳理,针对其中要点附图详细讲解,按需取用! 1. Transformer架构解析首先 ...
四万字全面详解 | 深度学习中的注意力机制（二）

目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不会把事物当成一个整体去看,往往倾向于根据需要选择性 ...
Transformer为啥在NER上表现不好

来自:NLP从入门到放弃今天介绍复旦的一个论文TENER[1] :普通的TRM在其他NLP任务中效果很不错,但是在NER中表现不佳.为了解决性能不佳,论文做了几点改进. 主要掌握以下三点改进: 方向 ...
(12条消息) 一文读懂BERT(原理篇)

一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...
超越Swin Transformer！谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin ...
朴实无华！注意力机制神经网络解析

本文接下来的部分为大家详细解析Attention Model里的奥秘. "编码器-解码器" 我们先从"encoder-decoder"模型说起,这是一种应用于s ...
解析Transformer模型

❝ GiantPandaCV导语:这篇文章为大家介绍了一下Transformer模型,Transformer模型原本是NLP中的一个Idea,后来也被引入到计算机视觉中,例如前面介绍过的DETR就是将 ...
bert之我见-attention篇

[NLP.TM] 我想现在NLP领域中,不知道bert的已经少之又少了,而bert的讲解文章也已经有了很多,这里我谈一下我最近学习得到的理解.事先说明,对bert和transformer完全不懂的人看 ...
GPT3为什么会彻底改变人工智能?

点击加载图片人工智能的自然语言理解技术在2020年进步很快,可以说是进一大步,因为基于Transformer模型的OpenAI GPT3模型(没错,是一种型号,前面还有GPT2)的原因. 话说202 ...
Attention增强的卷积网络

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系. 以下是要写的文章,本文是这个系列的第二十三篇,内容较为深入,需要学习基础的同学点击 ...
图解GPT-2（完整版）！

Datawhale干货译者:张贤, 哈尔滨工程大学,Datawhale原创作者干货长文,建议收藏阅读,收藏等于看完. 审稿人:Jepson, Datawhale成员, 毕业于中国科学院,目前在腾讯 ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（五）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第五篇,主要介绍了MIT HAN LAB 提出的2种构建轻量级Transformer的方法: ...