age 动漫 字节豆包大模子团队蹂躏残差麇集局限!预覆按拘谨最快加快80%
机器之心发布age 动漫
机器之机杼剪部
字节朝上豆包大模子团队于近日忽视超麇集(Hyper-Connections),一种肤浅灵验的残差麇集替代决策。面向残差麇集的主要变体的局限问题,超麇集可通过动态改革不同层之间的麇集权重,贬责梯度消结怨示意崩溃(Representation Collapse)之间的量度窘境。在 Dense 模子和 MoE 模子预覆按中,超麇集决策展示出显赫的性能提高效果,使拘谨速率最高可加快 80%。
自从 ResNet 忽视后,残差麇集已成为深度学习模子的基础构成部分。其主要作用是 —— 缓解梯度灭绝问题,使得收罗的覆按愈加踏实。
但是,现存残差麇集变体在梯度消结怨示意崩溃之间存在一种 “跷跷板式” 的量度,无法同期贬责。
为此,字节豆包大模子 Foundation 团队于近日忽视超麇集(Hyper-Connections),针对上述 “跷跷板式” 窘境,已矣了显赫提高。
该按次适用于大畛域话语模子(LLMs)的预覆按,在面向 Dense 模子和 MoE 模子的实验中,展示了显赫性能提高效果,使预覆按拘谨速率最高可加快 80%。
探讨团队还发现,超麇集在两个微型的视觉任务中发达相同优异,这标明,该按次在多个畛域有平凡的讹诈前程。
论文标题:Hyper-Connections论文一语气:https://arxiv.org/pdf/2409.19606
1. 超麇集的中枢念念想
前文说起,残差麇集的两种主要变体Pre-Norm和Post-Norm各自王人有其局限性,具体体现如下:
Pre-Norm:在每个残差块之前进行归一化操作,可灵验减少梯度灭绝问题。可是,Pre-Norm 在较深收罗中容易导致示意崩溃,即深层荫藏示意过于相似,从而减弱了模子学习才调。Post-Norm:在残差块之后进行归一化操作,有助于减少示意崩溃问题,但也再行引入梯度灭绝问题。在 LLM 中,频繁不会遴荐此按次。
超麇集的中枢念念路在于 —— 引入可学习的深度麇集(Depth-connections)和宽度麇集(Width-connections)。
从表面上,这使得模子不仅大概动态改革不同层之间的麇集强度,甚而能再行摆列收罗脉络结构,弥补了残差麇集在梯度消结怨示意崩溃(Representation Collapse)之间的量度窘境。
深度麇集与宽度麇集
首先,该按次会将收罗输入彭胀为 n 个隐向量(n 称作 Expansion rate)。之后每一层的输入王人会是 n 个隐向量,超麇集会对这些隐向量斥地以下两类麇集:
深度麇集(Depth-Connections):这些麇集雷同于残差麇集,只为输入与输出之间的麇集分拨权重,允许收罗学习不同层之间的麇集强度。宽度麇集(Width-Connections):这些麇集使得每一层多个荫藏向量之间可进行信拒却换,从而提高模子示意才调。
静态与动态超麇集
超麇集不错是静态的,也不错是动态的。
其中,静态超麇集(Static Hyper-Connections, SHC)意味着麇集权重在覆按终端后固定不变。而动态超麇集(Dynamic Hyper-Connections, DHC)则对应麇集权重可凭据输入动态改革。实验标明,动态超麇集效果更好。
3. 为什么使用超麇集(Hyper-Connections)
探讨团队以为,残差麇集的两种变体,即前归一化(Pre-Norm)和后归一化(Post-Norm),不错被视为不成覆按的超麇集。
随后,团队引入了礼貌 - 并行二象性见地,展示了超麇集奈何动态优化层的摆列以提高收罗性能。
情欲禁地高清在线观看礼貌 - 并行二象性
给定一系列神经收罗模块,咱们不错将它们礼貌摆列或并行摆列。作家以为,超麇集不错学习奈何将这些层再行摆列,酿成礼貌和并行建树的搀和。
在不失一般性的情况下,不错将彭胀率成立为 n=2。如若超麇集以如下矩阵口头学习,神经收罗将被礼貌摆列:
在这种情况下,深度麇集退化为残差麇集,如图 (a) 所示。
当奇数层和偶数层的超麇集矩阵分散界说为以下口头时,神经收罗每两层将被并行摆列,雷同于 Transformer 中的 parallel transformer block 的摆列口头,如图 (b) 所示。
因此,通过学习不同口头的超麇集矩阵,收罗层的摆列不错卓著传统的礼貌和并行建树,酿成软搀和甚而动态摆列。关于静态超麇集,收罗中的层摆列在覆按后保执固定;而关于动态超麇集,摆列不错凭据每个输入动态改革。
4. 实验戒指
实验主要集会在大畛域话语模子的预覆按上,涵盖了 Dense 模子和 MoE 模子。
实验戒指标明,使用超麇集的模子显赫优于使用残差麇集的模子。
1B Dense 模子实验
独一彭胀率 > 1,效果就相配显赫,且覆按更踏实,消掉了覆按 loss 的 spikes。
7B Dense 模子实验
团队甚而 Scale 到了 7B 模子,效果也相配亮眼,同期不错看到有超麇集的收罗覆按更踏实。
7B 候选激活 1.3B 的 MoE 模子实验
不错看到,卑劣操办全涨,在 ARC-Challenge 上甚而涨了 6 个百分点。
综上,探讨团队先容了超麇集(Hyper-Connections),它贬责了残差麇集在梯度消结怨示意崩溃之间的量度问题。实验戒指标明,超麇集在大畛域话语模子的预覆按以及视觉任务中王人发达出显赫的性能提高。
值得防御的是,超麇集的引入险些不加多稀奇的狡计支出或参数目,团队以为,该着力具有平凡的讹诈后劲,不错施行到文音视图模态的不同任务上,包括多模态领路、生成基座模子等。
5. 写在终末
团队暖和底层问题,尤其在 LLMs 和多模态方面,生机已矣更多蹂躏。
更多团队期间探讨进展,不错通过「豆包大模子团队」期间解读栏目了解。