15.混合专家模型(MoEs)技术揭秘

作者 : admin 本文共1308个字,预计阅读时间需要4分钟 发布时间: 2024-06-16 共1人阅读

混合专家模型(MoEs)技术揭秘

混合专家模型(Mixture-of-Experts, MoEs)技术发展简史

Mixtral 8x7B :质效并举的稀疏混合专家模型

15.混合专家模型(MoEs)技术揭秘插图

Mixtral 8x7B :质效并举的稀疏混合专家模型
15.混合专家模型(MoEs)技术揭秘插图(1)

MoEs 技术发展简史

15.混合专家模型(MoEs)技术揭秘插图(2)

MoEs 开山鼻祖:自适应局部专家混合 (Adaptive Mixtures of Local Experts, 1991)

  1. 混合专家模型:提出了一种有效减弱干扰效应的模型结构,设立多个独立的子网络(“专家”)来处理不同的输入数据子集(子任务),从而实现学习网络独立的权重更新。
  2. 门控网络:除了专家网络,这个模型还引入了一个称为“门控网络”(Gating Network)的结构。门控网络的职责,根据输入数据决定使用哪个专家网络(或组合)处理当前输入。
  3. 自适应学习:同时对每个专家和门控网络进行训练,模型可以根据数据自适应地改变每个专家的权重和作用。

15.混合专家模型(MoEs)技术揭秘插图(3)

核心贡献

  1. **分治处理复杂问题:**MoE 模型结构能够将复杂的任务分解为更小、更易于管理的子任务,每个由不同的专家网络处理。
  2. **引入了新的学习机制:**通过结合多个专家的知识和专长,混合专家模型能够更灵活地适应各种不同的数据模式和任务。
  3. **对后续研究的启发:**该论文在深度学习和机器学习领域具有重要影响,为后续关于神经网络架构创新、分布式学习以及模型优化方法的研究提供了灵感和基础

15.混合专家模型(MoEs)技术揭秘插图(4)

MoEs 与 集成学习技术对比

15.混合专家模型(MoEs)技术揭秘插图(5)

深度 MoEs ( Learning Factored Representations in a Deep Mixture of Experts ,2013)

15.混合专家模型(MoEs)技术揭秘插图(6)

15.混合专家模型(MoEs)技术揭秘插图(7)

Hinton Jeff Dean 合作发表稀疏门控 MoE (2017 ICLR)

15.混合专家模型(MoEs)技术揭秘插图(8)

15.混合专家模型(MoEs)技术揭秘插图(9)

15.混合专家模型(MoEs)技术揭秘插图(10)

MoEs 与 大模型结合后的技术发展

GShard**:基于** MoE 探索巨型 Transformer 网络(Google, 2020

15.混合专家模型(MoEs)技术揭秘插图(11)

15.混合专家模型(MoEs)技术揭秘插图(12)

15.混合专家模型(MoEs)技术揭秘插图(13)

在 GShard 中,编码器和解码器里的部分 FFN (Feed-Forward Network) 层被 MoE (Mixture of Experts) 层替代,并采用了一种称为 top-2 的门控机制。这种设计对大规模计算尤其有利:当模型扩展到多个设备时,MoE层在这些设备间共享,而其他层则在每个设备上独立存在。

为了在大规模应用中保持效率和均衡的负载,GShard 团队在设计上做了一些创新,包括:

随机路由机制:在 top-2 设计中,我们始终选择表现最优的专家,但第二选择的专家则根据其权重以一定概率被选中。

专家处理能力限制:我们可以设定一个专家能处理的 Token 数量的上限。如果两个专家的处理能力都已达到上限,那么这个 Token 就会被认为是多余的,并通过残差连接传递到下一层,或在某些情况下被直接丢弃。这一概念在 MoEs 的应用中非常关键。

注:在模型编译时所有的张量形状(Tensor Shape)都是静态确定的,但无法预先知道每个专家将处理多少Token,因此需要设定一个固定的处理能力上限。

15.混合专家模型(MoEs)技术揭秘插图(14)

GLaM**:使用** MoE 扩展语言模型性能(Google, 2021

15.混合专家模型(MoEs)技术揭秘插图(15)

GShard vs GLaM
15.混合专家模型(MoEs)技术揭秘插图(16)

Switch Transformer**:使用稀疏技术实现万亿模型(Google, 2022)**
15.混合专家模型(MoEs)技术揭秘插图(17)
15.混合专家模型(MoEs)技术揭秘插图(18)

并行提升 MoEs 效率

15.混合专家模型(MoEs)技术揭秘插图(19)

Mixtral 8x7B 稀疏专家模型(2024

15.混合专家模型(MoEs)技术揭秘插图(20)

15.混合专家模型(MoEs)技术揭秘插图(21)

15.混合专家模型(MoEs)技术揭秘插图(22)
15.混合专家模型(MoEs)技术揭秘插图(23)

本站无任何商业行为
个人在线分享 » 15.混合专家模型(MoEs)技术揭秘
E-->