大语言模型架构—Transformer 模型

作者 : admin 本文共374个字,预计阅读时间需要1分钟 发布时间: 2024-06-17 共1人阅读

文章目录

    • 输入编码
    • 多头自注意力机制
    • 前馈网络层
    • 编码器
    • 解码器

    当前主流的大语言模型都基于 Transformer 模型进行设计的。Transformer 是由多层的多头自注意力(Multi-head Self-attention)模块堆叠而成的神经网络模型。原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的 BERT模型和解码器架构的 GPT 模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。

大语言模型架构—Transformer 模型插图
大语言模型架构配置表(L 表示层数,N 表示注意力头数,H 表示隐藏状 态的大小)

输入编码

    在 Transformer 模型中,输入的词元序列( u = [ u 1 ,

本站无任何商业行为
个人在线分享 » 大语言模型架构—Transformer 模型
E-->