©作者 | 陈江海
单位 | 南开大学
来源|Paperweekly
▲ Next Token Prediction
训练目标是模型在训练过程中完成的任务,也可以理解为其需要优化的损失函数。在模型训练的过程中,有多种不同的训练目标可以使用,在此我们列出了 3 种不同的训练目标并将其归类为 token level 和 sequence level:
▲ Configration for Transformers
Transoformer 的配置指的是定义 Transformer 模型结构和大小的超参数,包括层数(深度),隐藏层大小(宽度),注意力头的个数等。
▲ Different Tasks for Different Models
现在,Transformer 模型通过各种训练目标进行训练。以 ViT 为例,我们可以在图像分类的监督学习环境下从头开始训练 Transformer 模型。在这种直接的图像分类任务中,每个图像被建模为一个 token 序列,其中每个 token 对应图像中的一个图块。我们使用来自图像的所有 token(即图块)的全局信息来预测单个标签,即图像类别。
在这里,由于训练目标是捕捉图像的全局信息,token 表示之间的差异不会直接被考虑。这一训练目标与机器翻译任务完全不同,机器翻译要求模型理解 token 序列,并以此生成另一个序列。
据此,我们可以合理假设对于这两个不同任务,应该存在不同的最佳 Transformer 配置。
本文旨在介绍 ICML 2023 的工作, 原文地址https://mp.weixin.qq.com/s/m6ttWBIyTUSt6klJXmATvw:
论文链接:
https://arxiv.org/abs/2205.10505论文作者:
(Fuzhao Xue)薛复昭(Jianghai Chen)陈江海 Aixin Sun, Xiaozhe Ren, Zangwei Zheng, Xiaoxin He, Yongming Chen, Xin Jiang, Yang YouTL;DR
本文研究了 Transformer 类模型结构(configration)设计(即模型深度和宽度)与训练目标之间的关系。结论是:token 级的训练目标(如 masked token prediction)相对更适合扩展更深层的模型,而 sequence 级的训练目标(如语句分类)则相对不适合训练深层神经网络,在训练时会遇到 over-smoothing problem。在配置模型的结构时,我们应该注意模型的训练目标。 一般而言,在我们讨论不同的模型时,为了比较的公平,我们会采用相同的配置。然而,如果某个模型只是因为在结构上更适应训练目标,它可能会在比较中胜出。对于不同的训练任务,如果没有进行相应的模型配置搜索,它的潜力可能会被低估。因此,为了充分理解每个新颖训练目标的应用潜力,我们建议研究者进行合理的研究并自定义结构配置。概念解释
下面将集中解释一些概念,以便于快速理解:2.1 Training Objective(训练目标)

sequence level:
classification 分类任务,作为监督训练任务。简单分类(Vanilla Classification)要求模型对输入直接进行分类,如对句子进行情感分类,对图片进行分类;而 CLIP 的分类任务要求模型将图片与句子进行匹配。 token level:(无监督) masked autoencoder:masked token 预测任务,模型对部分遮盖的输入进行重建next token prediction:对序列的下一个 token 进行预测
2.2 Transformer Configration(模型结构:配置)

2.3 Over-smoothing (过度平滑)
溯源:现有的Transformer架构是怎么来的
现状:不同的模型采用不同的训练目标

对于MAE训练目标调整模型结构
基于上述的讨论,我们得到了如下认识: 现有的 Transformer 模型在加深模型深度时会发生 over-smoothing 问题,这阻碍了模型在深度上的拓展。 相较于简单分类训练目标,MAE 的掩码预测任务能够缓解 over-smoothing。(进一步地,token 级别的训练目标都能够一定程度地缓解 over-smoothing)MAE 的现有模型结构继承于机器翻译任务上的最佳结构设置,不一定合理。

▲ Bamboo Configration
综合以上三点,可以推知 MAE 应该能够在深度上更好的拓展,也即使用更深的模型架构。本文探索了 MAE 在更深,更窄的模型设置下的表现:采用本文提出的 Bamboo(更深,更窄)模型配置,我们可以在视觉和语言任务上得到明显的性能提升。