美团提出具有「位置编码」的Transformer,性能优于ViT和DeiT
本文转载自机器之心。
Transformer 跨界计算机视觉的热潮之下,有一个问题需要解决:如何像 CNN 一样直接处理不同尺寸的输入?对此,美团提出了一种新型隐式条件位置编码方法,基于该方法的 CPVT 模型性能优于 ViT 和 DeiT。
保持很好的性能;
避免排列不变性(permutation equivariance);
易于实现。
赞 (0)
本文转载自机器之心。
Transformer 跨界计算机视觉的热潮之下,有一个问题需要解决:如何像 CNN 一样直接处理不同尺寸的输入?对此,美团提出了一种新型隐式条件位置编码方法,基于该方法的 CPVT 模型性能优于 ViT 和 DeiT。
保持很好的性能;
避免排列不变性(permutation equivariance);
易于实现。