大模型概念扫盲 | 小灰的笔记

type

status

date

slug

summary

发展历程

大语言模型（LLM, Large Language Model） 的兴起可以追溯到早期的语言模型研究。最初的语言模型使用统计方法，如 1990 年代 IBM 的统计翻译模型和 n-gram 模型等。随着神经网络的发展，语言模型逐渐采用神经网络架构。

2017年，谷歌在 NeurIPS 大会上提出了革命性的 Transformer 架构（Transformer architecture）。Transformer 利用自注意力机制（Self-Attention）高效建模长距离依赖，大幅提升了模型对长文本的处理能力。从此，NLP 领域进入了基于 Transformer 的预训练模型时代。

2018年，出现了 BERT（一种仅含编码器的双向 Transformer 模型），以遮蔽预测方式训练，迅速成为自然语言理解任务的基础。同年，OpenAI 发布了 GPT-1，采用仅解码器的自回归 Transformer 实现语言生成。

2019年，GPT-2 因其生成文本的能力过于逼真，一度被 OpenAI 认为可能被滥用而暂缓公开全部模型。

2020年，GPT-3 提升到 1750 亿参数，只提供 API 服务，被视为首批真正具备通用生成能力的大模型。

2022年底，ChatGPT（基于 GPT-3.5）通过人与反馈强化学习（RLHF）微调，实现了令人惊艳的对话能力，引发大众关注。

2023年，GPT-4 发布，改进了准确性并支持图像输入，多模态能力被誉为“圣杯”式突破。此后，大模型领域百花齐放，开放和闭源模型齐头并进。

2024年，OpenAI 推出 GPT-4o（“omni”，全模态 GPT-4），这是一个多语种、多模态模型，支持实时处理文本、图像和音频输入，广泛应用于 ChatGPT 等产品。各大公司和研究组织也相继发布更强大的模型（详见后文），标志着大语言模型进入全民参与、快速迭代的新阶段。

基本原理

大语言模型通过 神经网络（Neural Network）来处理和生成语言。现代 LLM 通常基于 Transformer 架构，由编码器和解码器堆叠组成。Transformer 的核心在于 注意力机制（Attention mechanism），使模型在处理每个单词时都能参考序列中其他相关位置的内容。特别是 自注意力机制 让模型在预训练时学会词语之间的关联。

LLM 的训练通常分为两步：

预训练（Pre-training）：即在海量文本语料上进行自监督学习——模型通过 自回归（Autoregressive）方式预测下一个词（如 GPT 系列）或通过 掩蔽语言模型（Masked LM）方式预测被遮蔽的词（如 BERT）。预训练使模型学会语言的基本语法和常识知识。

微调（Fine-tuning）：即在特定任务或指令数据上进一步训练模型，使其适应实际应用。微调包括传统的有监督微调，以及近年来常用的 指令微调（Instruction tuning）和 人类反馈强化学习（RLHF）等方法，以提升模型跟随指令和对齐人类期望的能力。

Transformer 模型通过堆叠多层前馈网络（Feed-forward network）和多头注意力模块，逐步提取复杂的语言模式。参数量通常以亿计甚至千亿计（因此称为“大”模型）。模型通过 反向传播（Backpropagation）和 梯度下降（Gradient Descent）优化海量参数，使预测结果与训练目标（下一个词或被遮蔽词）更接近，从而逐步学会语言。

总结来说，大语言模型利用深层神经网络和 Transformer 架构，从海量文本中自我学习语言规律，再通过微调掌握特定任务，在推理时根据输入上下文生成连贯的文本回答。

大语言模型基准测试（Benchmarks）

衡量大语言模型能力通常依赖一系列基准测试（Benchmarks）。这些基准是预先构建的标准测试集或任务集合，用于评估模型在知识、推理、理解、生成功能等方面的表现。随着模型能力提升，基准测试也在不断演进。以下是一些常见且最新的大语言模型基准及其作用：

1. GLUE/SuperGLUE

功能：用于评测自然语言理解的基准集合，包含文本蕴含、问答、情感分析等九项任务。

SuperGLUE：是GLUE的升级版，任务更加困难。

意义：LLM在这些基准上已接近或超过人类水平，标志着模型对基础NLP任务的掌握。

2. MMLU (Massive Multitask Language Understanding)

功能：涵盖57个学科的考试题，难度相当于大学本科水平。

意义：用于测试模型的广泛知识和理解能力。GPT-4在MMLU上得分88.7，超越了GPT-4的86.5。

衍生：MMLU-Pro包含更高难度的问题，用于进一步区分顶尖模型的知识极限。

3. BIG-bench (Beyond the Imitation Game)

功能：由开放AI社区创建的大型基准，包含约200项多样化任务，从数学推理到创意写作，应有尽有。

意义：用于发掘模型的长尾能力和奇特行为，旨在探测模型的综合AI能力，对标通用智能。

4. ARC (AI2 Reasoning Challenge)

功能：有两个不同的基准使用该缩写。一个是Allen AI的ARC，包含中小学科学考试题，考察常识推理；另一个是ARC-AGI，由François Chollet提出，是一套抽象图形推理任务，接近“智力测验”范畴。

意义：ARC-AGI要求模型在给定示例的基础上推理输出图形，用于评估类比和抽象推理能力。OpenAI的o3模型在ARC-AGI可视化推理上达到87.5%的准确率，与人类85%的水平相当。

5. HellaSwag

功能：常识推理基准，给出不完整的句子或短文，让模型从选项中选择最合理的结尾。

意义：由于题目经过对抗过滤，表面模式难以奏效，模型需依赖常识和推理。LLM在HellaSwag上的准确率可衡量模型的常识推理能力。

6. TruthfulQA

功能：由817道开放问答题组成，专门测试模型回答是否真实且不受训练中常见谣言误导。

意义：测试模型避免迎合虚假或误导性说法，是评估模型真实性和抗幻觉能力的重要基准。

7. 数学与逻辑基准

功能：如GSM8K（小学数学文字题）、MATH数据集（包含中学数学竞赛题），以及AIME 2024等数学竞赛题库。

意义：用于测试模型的数学推理与计算能力。数学问题通常需要多步推理和精确计算，是模型的一大挑战。最新模型（如DeepSeek-R1和Kimi k1.5）在这些基准上取得突破性成绩。

8. 编码与编程基准

功能：如HumanEval和Codeforces。HumanEval是编程题集合，要求模型生成满足特定功能要求的Python代码；Codeforces是竞技编程平台，通过评估模型解题能力来测试代码效率。

意义：Claude 3.5等模型在HumanEval上显著提高了代码正确率，展示了出色的编程能力。OpenAI的o3模型在Codeforces难题上表现达到高水平。

9. GPQA & GPQA Diamond

功能：GPQA（Graduate-level Google-Proof Q&A）是2023年提出的新基准，由专业人士撰写的研究生水平生物、物理、化学选择题，旨在规避网络直接查询。

意义：PhD专家答对率约为65%，非专业人士即使上网查资料也只有34%的正确率。GPQA强调深度科学推理，而非简单记忆，是考验模型高层次推理和可靠性的利器。GPQA Diamond则为挑战顶尖模型设计，难度极高。

总结

这些基准测试各有侧重，有的考查语言理解与常识（如GLUE、HellaSwag），有的评估知识广度（如MMLU）、推理深度（如GPQA）、数学编程能力（如MATH、HumanEval）或真实性（如TruthfulQA）。研究者通过在这些基准上的测试，了解模型的长短板，推动模型朝着更全面智能的方向改进。

模型设计思路

有的模型追求更大的规模和多样的技能，例如谷歌的Palm和后续的Gemini，据信集成了强化学习、视觉-语言融合等多种技术，力图打造“通才”模型。

也有模型专注于推理能力的提升，例如OpenAI的O系列模型（O1、O3）强调增强模型的逻辑思考过程，采用了模拟推理 (Simulated Reasoning) 等新技术。通过在生成答案前让模型进行内部的连贯“思考”，O系列模型在复杂问题上的正确率显著提高。

类似地，Google的Gemini 2.0被报道引入了“Flash Thinking”机制，与模拟推理异曲同工，旨在让模型更好地规划解题步骤。还有一些模型在架构上引入模块化或稀疏激活思想，例如DeepMind的Gopher曾探索不同模块协作，NVIDIA的Megatron-Turing提及专家混合（MoE）的规模化应用。通过让不同部分专精不同任务，这类模型提升了整体能力。

而开源社区中出现的如MPT等模型则注重长上下文，有针对性地将上下文窗口扩展到数十万token，以满足长文档处理需求。总之，不同设计思路体现在：有的扩大模型规模追求广度，有的改良内部机制增强深度推理，有的面向特定应用（如超长文本、多模态），体现了架构设计的多样化。

模型训练方式

大语言模型主要采用自监督学习进行预训练，具体可以是自回归或填空式的训练目标（前文已介绍）。自回归预训练让模型学会语言生成（如GPT系列从海量文本中学习“下一个词概率”）；遮蔽式预训练让模型学会双向理解（如BERT通过在句中预测被遮挡词来学习上下文表示）。

无论哪种预训练方式，本质上都是利用海量未标注文本，让模型学习语言模式和知识。这属于自监督预训练范式，使模型具备通用语言能力。预训练完成后，还会进行监督微调和对齐调优。监督微调使用人工标注的数据，例如将模型在翻译语料、问答对话等数据上训练，使其输出符合任务需求。

近年来更强调对模型进行指令调优，即使用人类编写的大量问答对话、指令执行示例来微调模型，使其更善于遵循指示和进行对话。这一步骤让模型从“预测下一个词”转变为“完成用户指定的任务”。

在此基础上，领先的对话模型还采用RLHF（人类反馈强化学习）进一步打磨。具体做法是：先由模型生成多个回答，人工或辅助模型对回答质量打分，然后通过强化学习（如PPO算法）调整模型参数，使其倾向于得分高的回答。RLHF有效减少了模型不符合用户期望的回答，使回复更加礼貌、有用、安全。

除了RLHF，也有研究尝试纯强化学习来训练模型。例如DeepSeek团队尝试不使用任何监督数据，仅靠模型自我玩模拟环境（如解题尝试）获取奖励，训练出了DeepSeek-R1-Zero等模型。虽然纯RL训练的模型在可读性等方面尚有不足，但通过配合少量有监督微调作为“冷启动”，再加上群体策略优化（GRPO）算法，DeepSeek-R1成功实现了主要依赖RL来增强推理能力的训练范式。这种探索表明，强化学习有望成为继自监督之后另一条提升模型智能的“轴线”。

总结

大模型训练通常是“自监督预训练 + 有监督/指令微调 + 对齐调优”的多阶段流程，各环节各司其职：预训练赋予模型广博的知识，微调塑造模型执行特定任务的技能，强化学习则在人类偏好维度上优化模型行为，使其更符合实际应用需求。

优化方法与参数高效微调

由于LLM（大语言模型）参数极其庞大，训练和微调的计算成本惊人，很多优化技术应运而生，以提高效率或降低资源占用。其中一类是参数高效微调（PEFT）方法，代表之一就是前面提到的LoRA（低秩适应）。

LoRA方法在微调时冻结原有的大部分模型权重，仅在每层引入几个小矩阵作为可训练参数，训练这些小矩阵来适应新任务。这些小矩阵的秩很低，因此参数量和所需算力远小于全量微调。LoRA的好处是能够用很少的计算资源，在保持预训练模型知识的同时快速微调出新能力。许多开源模型（如Llama、GPT-J等）都支持LoRA微调，极大降低了社区复用大模型的门槛。

另一类重要技术是混合专家（MoE）。这是提高训练和推理效率的架构创新，将模型的某些层扩展为包含多个“专家”子网络的形式。每次仅激活与输入最相关的少数专家，而非让所有参数都参与计算。这样一来，模型总参数量可以非常大（每增加一个专家就多一份参数），但实际每步计算只使用到一小部分专家，等于稀疏化了计算图。

MoE使得“训练一个1万亿参数模型”的成本比等规模稠密模型低很多，因为计算开销按激活的专家数量而非总专家数来算。谷歌的Switch Transformer和Sparse Mixture of Expert就是MoE成功应用的例子。

一些开源模型（如DeepSeek-V3）也采用了MoE架构作为基础，通过极大的参数规模提升预训练效果，然后通过强化学习（RL）等手段增强推理能力。

除了微调和架构优化，优化算法的改进也不可忽视。为保证训练稳定，大模型常使用自适应优化器（如AdamW）配合分段学习率调度策略，并辅以梯度裁剪、预热等技巧，防止梯度爆炸或消失。Facebook研究发现了规模化法律（Scaling Laws），指导在给定算力下如何平衡参数规模与训练步骤，以最优地提升模型性能，这也是训练策略优化的一部分。

总之，从LoRA这类微调技巧，到MoE这样的架构调整，再到训练过程超参数的精细调控，这些优化方法共同支撑了如今LLM的高效训练和部署，让我们能够在相对可控的资源下驯服超大规模的模型。

推理加速技术

大模型在推理阶段的加速同样至关重要，直接影响实际应用的速度和成本。常用的加速手段之一是模型压缩。除了量化和蒸馏，另一个常见方法是权重剪枝（Pruning），即删除对最终结果贡献很小的连接或神经元，从而减小模型规模。剪枝可以在几乎不损失精度的情况下大幅压缩模型，比如一些研究对GPT类模型剪枝30%的参数，而性能基本不变。

图优化也是一个重要方向，即通过底层实现改进提高计算效率。例如，自注意力计算可以使用更高效的算法（如Flash Attention）实现，以减少显存访问和计算冗余，从而加速数倍。还有针对Transformer结构的深度，提出的重计算（Recompute）技术，它在不增加显存的前提下通过多次计算换取时间，平衡了存储和算力。

在硬件方面，混合精度推理已经成为标准做法：使用FP16甚至更低精度进行矩阵乘法运算，同时保留少部分关键运算使用高精度，以兼顾速度和稳定性。现代GPU和TPU都对低精度计算进行了优化，使得模型在推理时能跑得更快。

批处理推理可以提升吞吐量——将多个输入打包一起推理，充分利用矩阵运算的并行性，但这需要有足够的请求量支持。对于需要低延迟的交互式应用，还可以采用多路复用技术，让一个大模型实例同时服务多个会话而不明显减速。缓存机制也是实用的加速方案，例如对Transformer解码过程的中间状态缓存，避免每生成一个词就重复计算先前的注意力，这在长文本生成时效果显著。

最后，随着模型规模增大，专用加速硬件的作用愈发突出。除了GPU，Google TPU、亚马逊Inferentia、寒武纪MLU等AI芯片都针对Transformer推理进行了优化。例如，一些芯片有稀疏计算加速单元，专门加速MoE模型的专家路由计算。再如，大显存硬件允许将模型完全放入内存，避免频繁的数据交换延迟。

综合运用这些技术，当前已经可以在消费级硬件上以量化4-bit形式运行一个数十亿参数的模型，在云端通过高度优化的集群实时提供千亿参数模型的响应。这些推理加速手段保证了大模型能够以可用的速度和成本服务于实际应用，从手机上的离线文本生成，到服务器上的海量请求处理。