7 Papers & Radios | 纯注意力或许没那么有用；从量子场看深度学习

2024-05-04 19:46:12

机器之心 & ArXiv Weekly Radiostation

参与：维度、楚航、罗若天

本周的重要论文包括谷歌关于永久视图生成问题的探索、DeepMind 提出的基于 Transformer 的自回归架构及复旦大学高分子科学系教授彭慧胜团队的一项研究成果等。

目录：

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image
Generating images with sparse representations
The Hintons in your Neural Network: a Quantum Field Theory View of Deep Learning
Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models
Attention is not all you need: pure attention loses rank doubly exponentially with depth
Large-area display textiles integrated with functional systems
Understanding WeChat User Preferences and 'Wow' Diffusion
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image

作者：Andrew Liu、Richard Tucker、Varun Jampani 等
论文链接：https://arxiv.org/pdf/2012.09855.pdf

摘要：在这篇论文中，谷歌研究院的几位研究者探讨了永久视图生成（prepetual view generation）问题。永久视图生成即给定单张图像在任意长相机轨迹下新视图的远距离生成。这是一项具有挑战性的任务，超出了当前视图生成方法的能力范畴，这些方法只适用于有限的视角范围，并且生成效果会在相机运动较强烈时迅速退化。此外，视频生成方法在生成长视频序列时能力受限，并且通常不受场景几何的影响。

谷歌研究者采用的新型混合方法在迭代渲染、优化和重复框架中集成了几何和图像合成功能，从而可以进行覆盖数百帧后较大距离的长距离生成。该方法不需要任何人工注释即可以从一组单眼视频序列中进行训练。此外，研究者提出了一个沿海自然场景的航拍数据集，并与最近的视图生成和条件视频生成基准进行了比较。结果表明，与现有方法相比，该方法可以覆盖较大相机轨迹的更长时间范围的合理场景。

整体方法流程，首先利用视差（disparity）将输入图像渲染至新的相机视图，接着对输入图像进行优化，合成并超分解缺失的内容。在输出 RGB 和几何图形后，重复该过程以实现永久视图生成。

渲染与优化步骤。

永久视图生成的效果展示，左侧为输入图像，右侧为输出的视频。

推荐：无限自然：从单张图像永久生成自然场景。

论文 2：Generating images with sparse representations

作者：Charlie Nash、Jacob Menick、Sander Dieleman 等
论文链接：https://arxiv.org/pdf/2103.03841v1.pdf

摘要：高维图像为基于似然的生成模型带来了架构和采样效率方面的挑战。VQ-VAE 等以往方法使用深度自编码器来获取紧凑的表征，这些深度自编码器作为似然模型的输入时更加实用。DeepMind 的研究者受到 JPEG 等常见图像压缩方法的启发提出了一种替代方法，将图像转化为量化的稀疏余弦变换（discrete cosine transform, DCT）块，这些块可以稀疏地表征为一系列 DCT 通道、空间位置和 DCT 系数三元组。

研究者提出了一种基于 Transformer 的自回归架构，该架构经过训练可以依次预测此类序列中下个元素的条件分布，并可以有效地放大至高分辨率图像。在多个图像数据集上的实验表明，该方法可以生成多样化的高质量图像，并且样本指标分数可与 SOTA 方法相当。此外，简单修改一下该方法还可以生成有效的图像着色和超分辨率模型。

输入图像被分割为 64 个像素块。

基于组块的训练和堆叠 Transformer 架构。

图（上）为图像着色效果。图（下）为 8 倍图像上采样效果。

推荐：本文提出的 DC-Transformer 架构不仅在样本质量和多样性基准上实现优秀性能，而且还轻松地支持图像着色和超分辨率上采样任务。

论文 3：The Hintons in your Neural Network: a Quantum Field Theory View of Deep Learning

作者：Roberto Bondesan、Max Welling
论文链接：https://arxiv.org/pdf/2103.04913.pdf

摘要：在本文中，高通 AI 研究院的两位学者提出了深度学习量子场理论形式化，其中输入信号在高斯态中进行编码。他们展示了将线性和非线性层表征为单一量子门，并将量子模型的本征激发解释为粒子，这种粒子被称为「Hintons」。除了为研究神经网络打开新视角和提供新技术之外，这种量子公式化非常适合光学量子计算，并提供了可以在光学量子计算设备上高效运行的神经网络量子变形。研究者探讨了适合经典模拟的量子变形模型的半经典极限。

神经网络分层。

量子光学硬件上模型实现的高级描述。

论文 4：Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

作者：Sam Bond-Taylor、Adam Leach、Yang Long 等
论文链接：https://arxiv.org/pdf/2103.04922.pdf

摘要：深度生成建模技术通过训练深度神经网络对训练样本的分布进行建模。研究中出现了各种互通的方法，并在运行时、多样性和架构限制方面进行权衡。具体而言，该领域涵盖了基于能量的模型、变分自编码器、生成对抗网络、自回归模型、归一化流等。在本文中，英国杜伦大学的研究者在单个一致性框架下阐述了这些方法，并通过对比解释了每种方法背后的理论，同时回顾了当前 SOTA 进展和实现。

不同深度生成模型在训练和测试速度、参数效率、样本质量、样本多样性以及缩放至高分辨率数据等方面的对比。

训练 GAN 的常见损失之间的对比。

隐式网络连续建模数据，并支持任意高分辨率。

推荐：深度生成建模方法综述。

论文 5：Attention is not all you need: pure attention loses rank doubly exponentially with depth

作者：Yihe Dong、Jean-Baptiste Cordonnier、Andreas Loukas
论文链接：https://arxiv.org/pdf/2103.03404v1.pdf

摘要：基于注意力的架构在机器学习领域已经非常普遍，但人们对其有效性原因的理解仍然有限。最近，来自谷歌和瑞士洛桑联邦理工学院（EPFL）的研究者提出了一种理解自注意力网络的新方式：将网络输出分解为一组较小的项，每个项包括一系列注意力头的跨层操作。基于该分解，研究者证明自注意力具备强大的「token uniformity」归纳偏置。也就是说，如果没有跳过连接（skip connection）或多层感知器（MLP），其输出将二重指数级收敛至秩 1 矩阵。另外，跳过连接和 MLP 还可以阻止输出的衰退。在不同 Transformer 变体上的实验证实了这一收敛现象。

具有 H 个头和 L 个层的深度自注意力网络（Self-Attention Network, SAN）中有两条路径。

他们将 SAN 分解为弱耦合路径的线性组合，每一条「路径」对应一个深度单头 SAN。

MLP 的作用。

推荐：纯注意力并没有那么有用，Transformer 凭借哪些组件屹立不倒？

论文 6：Large-area display textiles integrated with functional systems

作者：Xiang Shi、Yong Zuo、Peng Zhai 等
论文链接：https://www.nature.com/articles/s41586-021-03295-8

摘要：在刘慈欣的科幻小说《三体》中，主人公罗辑在冬眠了一百八十五年后来到了公元 2211 年。此时，人们的衣服已经能够根据穿着者情绪的变化，变幻不同的色彩、图案，每件衣服都相当于一块显示屏。虽然距离 2211 年还有接近两百年的时间，但书中描写的这一景象似乎已经离我们不远了。近日，《Nature》杂志刊载了复旦大学高分子科学系教授彭慧胜团队的一项研究成果——《大面积显示织物及其功能集成系统》。顾名思义，这种织物融合了显示器件的制备与织物编织过程，可以让衣服充当显示器使用，而且可以多次清洗、折叠，有很大的实用价值。审稿人认为，这项研究「创造了重要而有价值的新知识」。

发光经纱和导电纬纱。

充当显示屏的织物。

在处理器的帮助下，人类脑电波可被转换为可读信息，并显示在织物上。

推荐：每个人都是一个行走的显示屏，这并不是科幻小说里才有的场景。《三体》科幻场景在现实中出现。

论文 7：Understanding WeChat User Preferences and 'Wow' Diffusion

作者：Fanjin Zhang、Jie Tang、Xueyi Liu 等
论文链接：https://arxiv.org/pdf/2103.02930.pdf

摘要：微信是中国最大的社交即时通信平台，月活跃用户多达约 11 亿。「看一看」是微信新推出的推荐引擎，用户可以通过它阅读自己和朋友喜欢的文章：当微信用户打开一篇文章并阅读时，「点击」行为本身是私人的。但当用户点击了「在看」后，他 / 她的微信直接联系人就可以在「看一看」里发现这一行为 / 推荐。「看一看」的数据有什么用呢？

最近，来自清华大学的唐杰等人利用它来理解用户偏好和「在看」按钮，并得到了一些有趣的发现。例如，用户点击「在看」的概率与其活跃朋友构成的相连组件数量成负相关，但点击概率正好相反。该研究进一步探索如何基于用户的社会关系预测其点击行为和「在看」行为。为此，研究者提出了一个基于层级图表示学习的模型 DiffuseGNN，该模型能够捕捉到上述基于结构的社交观测结果。实验表明，该方法能够显著提升预测性能。

WeChat 中的「Top Stories」功能。

用户性别和朋友性别对用户活跃率的影响。

用户年龄与朋友年龄对用户活跃率的影响。

推荐：微信「看一看」反映出哪些用户行为模式？清华研究者发现了这些规律。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Improving Text-to-SQL with Schema Dependency Learning. (from Jian Sun)

2. Unsupervised Transfer Learning in Multilingual Neural Machine Translation with Cross-Lingual Word Embeddings. (from Alexander Waibel)

3. FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders. (from Lawrence Carin)

4. Enhanced Aspect-Based Sentiment Analysis Models with Progressive Self-supervised Attention Learning. (from Jiebo Luo)

5. Neural model robustness for skill routing in large-scale conversational AI systems: A design choice exploration. (from Young-Bum Kim)

6. IOT: Instance-wise Layer Reordering for Transformer Structures. (from Tie-Yan Liu)

7. Graph-Based Tri-Attention Network for Answer Ranking in CQA. (from Hongyuan Zha, Jianyong Wang)

8. Contrastive Semi-supervised Learning for ASR. (from Abdelrahman Mohamed)

9. MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization. (from Yang Liu)

10. Interpretable bias mitigation for textual data: Reducing gender bias in patient notes while maintaining classification performance. (from Peter Sheridan Dodds)

本周 10 篇 CV 精选论文是：

1. End-to-End Human Object Interaction Detection with HOI Transformer. (from Jian Sun)

2. Fast and Accurate Model Scaling. (from Piotr Dollár, Ross Girshick)

3. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction. (from Li Fei-Fei)

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction. (from Li Fei-Fei)

5. A Study of Face Obfuscation in ImageNet. (from Li Fei-Fei, Jia Deng, Olga Russakovsky)

6. Dynamical Pose Estimation. (from Jean-Jacques Slotine)

7. Sequential Learning on Liver Tumor Boundary Semantics and Prognostic Biomarker Mining. (from Alan L. Yuille)

8. Pixel-wise Anomaly Detection in Complex Driving Scenes. (from Roland Siegwart)

9. Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle Re-Identification. (from Lei Zhang)

10. Manifold Regularized Dynamic Network Pruning. (from Dacheng Tao)

本周 10 篇 ML 精选论文是：

1. Representation Matters: Assessing the Importance of Subgroup Allocations in Training Data. (from Michael I. Jordan)

2. hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power Machine Learning Devices. (from Maurizio Pierini, Zhenbin Wu)

3. Model Complexity of Deep Learning: A Survey. (from Jian Pei)

4. Variable-rate discrete representation learning. (from Sander Dieleman, Karen Simonyan)

5. Rissanen Data Analysis: Examining Dataset Characteristics via Description Length. (from Kyunghyun Cho)

6. Improving Context-Based Meta-Reinforcement Learning with Self-Supervised Trajectory Contrastive Learning. (from Kurt Keutzer, Yang Gao)

7. Spatial-Temporal Tensor Graph Convolutional Network for Traffic Prediction. (from Tong Zhang, Jian Yang)

8. Hard-label Manifolds: Unexpected Advantages of Query Efficiency for Finding On-manifold Adversarial Examples. (from Somesh Jha)

9. Pretrained Transformers as Universal Computation Engines. (from Pieter Abbeel)

10. Should Graph Neural Networks Use Features, Edges, Or Both?. (from Roger Wattenhofer)

【NeurIPS100】谷歌、Facebook、斯坦福等十篇机器学习最新论文解读

NeurIPS 2019虽然刚刚落幕,但是学习的任务还远未结束. 今天我们整理了NeurIPS 2019上十篇机器学习领域的论文,这些论文来自谷歌.Facebook.普林斯顿大学.斯坦福大学等团队的最 ...
【每周CV论文】初学深度学习图像超分辨应该要读的文章

欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...
KDD2021 放榜，6 篇论文带你了解阿里妈妈AI技术

关于 KDD ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是国际数据挖掘领域的顶级会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为A类会议. ...
简单有效，新型对抗性攻击方法成功攻破热门安卓APP中DL模型

机器之心专栏作者:黄宇津当前,很多深度学习模型嵌入到了移动 APP 中.虽然在设备上执行机器学习有助于改善延迟.连通性与功耗,但 APP 内置的大多数深度学习模型可以通过逆向工程轻易获得,从而更易 ...
32岁成清华博导，单篇论文引用量接近1.1万次！这位优青的故事太励志了

黄高,道林镇华鑫市村人,2005年毕业于宁乡一中,27岁获得清华大学博士学位,随后前往美国康奈尔大学计算机系继续博士后深造,博士后第二年他的研究<Densely Connected Convol ...
谷歌自锤Attention is all you need：纯注意力并没那么有用，Transform...

机器之心报道编辑:魔王基于注意力的架构为什么那么有效?近期谷歌等一项研究认为注意力并没有那么有用,它会导致秩崩溃,而网络中的另两个组件则发挥了重要作用:「跳过连接」有效缓解秩崩溃,「多层感知器」能 ...
带你深入了解编纂字典的人，或许没你想的那么神秘

走近字典编纂者在<早餐英语>节目中,我们学习了一个新的短语"ignorance is bliss",也就是我们现在常说的"无知是福",借由这个短语 ...
田蕴章老师'颜体味道'行楷,你或许没有见过，不容错过！

田蕴章老师'颜体味道'行楷,你或许没有见过，不容错过！
《宫心计2：深宫计》元玥姐姐会是谁？或许没大家想的那么复杂！

<宫心计2:深宫计>开播一周多,相信不少童鞋已经在追了,因为这次上架得有些复杂,所以大家的进度可能都不大一样,有的看了9集,有的看了10集,如果只看TVB的,那么这会可能只看了7集. 作为 ...
甲骨文中找不到“夏朝”的记载？真相或许没那么简单

甲骨文中找不到“夏朝”的记载？真相或许没那么简单
吴佩衡讲伤寒 | 脾湿胃寒或许没那么难治

太阴者,阴之极大者也.在天为湿,在地为土,在人为脾.湿者,太阴土气之所化也,土寄居于四季之月,而旺于长夏.盖天地只以水火二气化生万物,长夏之时,水火相交,蒸而为湿.<素问·阴阳应象大论>云 ...
您或许没想到，只距京城50多公里，竟然隐藏着一个犹如画中游的好地方！

这里的清凉安静, 是避暑的好地方, 对于长时间在城市中的我们是一个很好的休闲场所. 这里离红螺寺不远, 还是天然氧吧, 空气极好. 这里有 "寂静山乡.佛门净土. 世外仙境.梦幻天堂&qu ...
开起来像纯电动车还没续航焦虑试驾东风本田CR-V 锐·混动e+

得益于本田本身在混动领域的领先技术,让CR-V 锐·混动e+在日常驾驶中拥有更为贴近纯电动车的行驶表现,这让其成为了目前消费者从燃油车过渡到纯电动车时最合适的产品. 当新能源汽车的浪潮席卷全球的时候, ...
你或许没听说过，猪的这5个习性，助你更科学的养好猪！

知己知彼,才能百战不殆,放在养猪上也是如此,我们想更好的养好猪,更要做到知猪,懂猪的生活习性. 猪的常见习性就不说了,小编和大家说说几个你或许没听说过的猪的习性,从而帮助咱们更好的去知猪,养好猪. 一 ...

7 Papers & Radios | 纯注意力或许没那么有用；从量子场看深度学习

相关推荐