深入浅出 GPT-4 的体系结构

Vachel/小杞    July 27, 2023

GPT-4(Generative Pre-trained Transformer 4)是 OpenAI 发布的最新 GPT 系列模型。它是一个大规模多模态模型,相比 GPT-3.5 / ChatGPT,GPT-4 可以接受图像和文本两种形式的输入,产生文本输出。输出依旧是一个自回归的单词预测任务。技术上,GPT-4 采用了专家混合(MoE)技术,进一步增强模型的能力。整体来说,GPT-4 在各种专业和学术基准上表现出了人类的水平,对于生成式的幻觉、安全问题均有较大的改善。

本文将和大家一起深入探索 GPT-4 的架构和能力。

论文地址:https://arxiv.org/abs/2303.08774

模型结构

GPT-4 的体系结构由16个不同的专家模型组成,每个模型都有 111B 个参数,总计约 1.76 万亿个参数。除了更大的参数规模外,另一个重要的细节是 GPT-4 使用了专家混合(Mixture of Experts,简写为 MoE)架构,这意味着模型中的不同组件或“专家”协同工作,每个组件都有助于最终输出。

01

上图可视了采用 MoE 的 Transformer 层。在 GPT-4 中 Attention 的参数量有 55B,MoE 的参数量是 111B * 16,一共 120 层 Transformer。每个 token 会通过一个路由算法选择两个 MLP 进行计算,参数 seq_len 为 8k,每个 MLP 分到 1k 个 token。

GPT-4 的模型宽度,深度基本和 GPT-3 (175B) 差不多,区别在于 MLP 的数量要多16倍。

并行策略

GPT-4 训练采用的并行策略是:

  • 张量并行:8
  • 流水并行:16
  • 数据并行:196

总计使用约 3125 台机器(25000 张 A100)进行训练。其中 batch size 为 60M token,seq_len 为 8k。

张量并行和流水并行包含了 GPT-4 完整的模型参数,其结构如下:

02

其中,张量并行通讯耗时占比小于 15%,PipeDream 流水线气泡占比 28% 左右,Interleaved 1F1B 流水线气泡占比 16% 左右。

专家并行

专家混合(Mixture of Experts,简写为 MoE)是一种在模型增强的道路达到极限时采用的实用方法。运作原理很简单——由更简单的模型或“专家”组成一个小组,每个模型或专家都针对数据的特定方面,然后利用他们的集体智慧。

在实践中,这就像处理一项复杂的任务。比如建造一所房子会招聘建筑师、工程师和室内设计师等专业人士,每个人都有自己独特的专业知识。类似地,MoE模型由多个“专家”组成,每个专家都精通某个特定领域,协作以提供增强的结果。如下图所示:

03

对于 MoE 模型进行并行训练,这里可以做一个初步的估计:按照目前最大的 8 路张量并行,16 路流水线并行计算,每个 GPU 上的参数量是 14B,假设用 FP32 的梯度,则参数和梯度需要占用 84 GB 的显存,目前市面上还没有能完整放下显卡。因此,GPT-4 大概率会使用专家并行(Expert Parallelism)技术来节省显存占用。

04

模型能力

GPT-4 做的这些改进效果是显著的,相比前代 GPT-3.5/ChatGPT,他具备了新的能力:

  1. 具有图像理解能力,突破纯文字的模态,增加了图像模态的输入

    如下图所示的例子,GPT-4 可以根据图标,计算格鲁吉亚和西亚的日均肉消耗量:

    05

  2. 支持更长的上下文窗口

    如之前所描述的,GPT-4 的 seq_len 为 8k,是 ChatGPT 上下文长度的2倍。

  3. 复杂任务处理能力大幅提升

    在多类考试测验中以及与其他 LLM 的 benchmark 比较中发现,GPT-4 在更复杂、更细微的任务处理上,回答更可靠、更有创意。

  4. 改善幻觉、安全等局限性

    LLM 的生成模式不可避免会有一些幻觉问题。GPT-4 在测试中发现其可以显著减轻在各类任务上幻觉问题,比最新的 GPT-3.5 模型提高 40% 左右。同样在安全能力的升级上,GPT-4 明显超出 ChatGPT 和 GPT3.5。


本文作者: Vachel/小杞


您可以转载、不违背作品原意地摘录及引用本技术博客的内容,但必须遵守以下条款: 署名 — 您应当署名原作者,但不得以任何方式暗示幻方为您背书,亦不会对幻方的权利造成任何负面影响。 非商业性使用 — 您不得将本技术博客内容用于商业目的。 禁止演绎 — 如果基于该内容改编、转换、或者再创作,您不得公开或分发被修改内容,该内容仅可供个人使用。