当前位置：个人在线分享 > 大语言模型架构—Transformer 模型

大语言模型架构—Transformer 模型

作者 : admin 本文共374个字，预计阅读时间需要1分钟发布时间： 2024-06-17 共1人阅读

文章目录

- 输入编码
- 多头自注意力机制
- 前馈网络层
- 编码器
- 解码器

当前主流的大语言模型都基于 Transformer 模型进行设计的。Transformer 是由多层的多头自注意力（Multi-head Self-attention）模块堆叠而成的神经网络模型。原始的 Transformer 模型由编码器和解码器两个部分构成，而这两个部分实际上可以独立使用，例如基于编码器架构的 BERT模型和解码器架构的 GPT 模型。与 BERT 等早期的预训练语言模型相比，大语言模型的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数，并主要使用解码器架构，对于 Transformer 本身的结构与配置改变并不大。

大语言模型架构—Transformer 模型插图 — 大语言模型架构配置表（L 表示层数，N 表示注意力头数，H 表示隐藏状态的大小）

输入编码

在 Transformer 模型中，输入的词元序列(

transformer 人工智能深度学习知识图谱算法自然语言处理语言模型

本站无任何商业行为
个人在线分享 » 大语言模型架构—Transformer 模型

admin 钻石

分享到：

E-->