Lazy loaded image
技术
✔️大模型概念扫盲
Words 10773Read Time 27 min
2025-3-12
2025-3-12
type
status
date
slug
summary
tags
category
icon
password
comment
Status

发展历程

大语言模型(LLM, Large Language Model) 的兴起可以追溯到早期的语言模型研究。最初的语言模型使用统计方法,如 1990 年代 IBM 的统计翻译模型和 n-gram 模型等。随着神经网络的发展,语言模型逐渐采用神经网络架构。
  • 2017年,谷歌在 NeurIPS 大会上提出了革命性的 Transformer 架构(Transformer architecture)。Transformer 利用自注意力机制(Self-Attention)高效建模长距离依赖,大幅提升了模型对长文本的处理能力。从此,NLP 领域进入了基于 Transformer 的预训练模型时代。
  • 2018年出现了 BERT(一种仅含编码器的双向 Transformer 模型),以遮蔽预测方式训练,迅速成为自然语言理解任务的基础。同年,OpenAI 发布了 GPT-1,采用仅解码器的自回归 Transformer 实现语言生成。
  • 2019年GPT-2 因其生成文本的能力过于逼真,一度被 OpenAI 认为可能被滥用而暂缓公开全部模型。
  • 2020年GPT-3 提升到 1750 亿参数,只提供 API 服务,被视为首批真正具备通用生成能力的大模型。
  • 2022年底ChatGPT(基于 GPT-3.5)通过人与反馈强化学习(RLHF)微调,实现了令人惊艳的对话能力,引发大众关注。
  • 2023年GPT-4 发布,改进了准确性并支持图像输入,多模态能力被誉为“圣杯”式突破。此后,大模型领域百花齐放,开放和闭源模型齐头并进。
  • 2024年,OpenAI 推出 GPT-4o(“omni”,全模态 GPT-4),这是一个多语种、多模态模型,支持实时处理文本、图像和音频输入,广泛应用于 ChatGPT 等产品。各大公司和研究组织也相继发布更强大的模型(详见后文),标志着大语言模型进入全民参与、快速迭代的新阶段。

基本原理

大语言模型通过 神经网络(Neural Network)来处理和生成语言。现代 LLM 通常基于 Transformer 架构,由编码器和解码器堆叠组成。Transformer 的核心在于 注意力机制(Attention mechanism),使模型在处理每个单词时都能参考序列中其他相关位置的内容。特别是 自注意力机制 让模型在预训练时学会词语之间的关联。
LLM 的训练通常分为两步:
  1. 预训练(Pre-training):即在海量文本语料上进行自监督学习——模型通过 自回归(Autoregressive)方式预测下一个词(如 GPT 系列)或通过 掩蔽语言模型(Masked LM)方式预测被遮蔽的词(如 BERT)。预训练使模型学会语言的基本语法和常识知识。
  1. 微调(Fine-tuning):即在特定任务或指令数据上进一步训练模型,使其适应实际应用。微调包括传统的有监督微调,以及近年来常用的 指令微调(Instruction tuning)和 人类反馈强化学习(RLHF)等方法,以提升模型跟随指令和对齐人类期望的能力。
Transformer 模型通过堆叠多层前馈网络(Feed-forward network)和多头注意力模块,逐步提取复杂的语言模式。参数量通常以亿计甚至千亿计(因此称为“大”模型)。模型通过 反向传播(Backpropagation)和 梯度下降(Gradient Descent)优化海量参数,使预测结果与训练目标(下一个词或被遮蔽词)更接近,从而逐步学会语言。
总结来说,大语言模型利用深层神经网络和 Transformer 架构,从海量文本中自我学习语言规律,再通过微调掌握特定任务,在推理时根据输入上下文生成连贯的文本回答。

相关概念

模型与架构

  • 大语言模型 (Large Language Model, LLM):参数规模巨大的语言模型,通常在海量语料上训练,能够执行文本理解和生成等多种任务。参数规模从数亿到千亿以上不等。
  • 神经网络 (Neural Network):由模拟生物神经元的节点构成的模型,通过层与层之间的加权连接来学习数据特征。深度神经网络是大语言模型的基础。
  • 参数 (Parameters):指模型中可学习的权重值。LLM 往往拥有亿亿级别的参数,参数数量越多,模型容量(capacity)越大,潜在表达能力越强。
  • Transformer 架构 (Transformer architecture):一种基于自注意力机制的神经网络架构,由编码器和解码器堆叠组成。Transformer 能够并行处理序列,在 NLP 中取代了循环神经网络,是现代大模型的核心架构。
  • 注意力机制 (Attention mechanism)模型在处理序列时分配给每个位置不同的权重,以关注更相关的部分。通过“注意”输入中重要的信息,模型能更好地理解上下文。
  • 自注意力机制 (Self-Attention):Transformer 中的关键机制,每个词对序列中其他词计算相关性,并根据相关性加权汇总信息,从而捕捉句子内部各词之间的联系
  • 多头注意力 (Multi-head Attention):将注意力机制复制多个“头”,每个头在不同子空间学习不同的关系,然后将结果融合。这使模型能同时关注不同角度的语义模式。
  • 前馈网络 (Feed-forward Neural Network):Transformer 中每个注意力层后面的全连接网络层,对注意力提取的信息做进一步非线性变换和特征提取。
  • 编码器 (Encoder):Transformer 架构的一部分,接收输入序列并提取特征表示。编码器通常用于理解类任务(如 BERT),产生输入的隐藏表示。
  • 解码器 (Decoder):Transformer 的另一部分,根据先前输出和编码器提供的上下文逐步生成序列。用于生成类任务(如 GPT),一般通过自回归方式生成文本。
  • 编码器-解码器模型 (Encoder-Decoder model):同时包含编码器和解码器的模型架构。编码器读取源序列,解码器生成目标序列,多用于翻译等序列到序列任务(如 Transformer 原论文模型)。
  • 自回归模型 (Autoregressive model):按照序列顺序逐词生成下一个词的模型。模型基于已经生成的前文来预测下一个 token,GPT 系列属于自回归生成模型。
  • 掩蔽语言模型 (Masked Language Model):通过遮蔽部分文本让模型预测被遮蔽内容的训练方法。BERT 采用这种方式训练,使模型学会双向理解上下文,但不直接用于生成。

训练与优化

  • 预训练 (Pre-training):在大规模未标注语料上训练模型以学习通用语言知识的过程。通过预训练,模型获得广泛的语义、语法常识,为下游任务打下基础。
  • 微调 (Fine-tuning):在预训练模型的基础上,使用较小的特定任务数据继续训练模型,使其适应特定任务需求。例如,用问答数据微调预训练模型以提升问答性能。
  • 监督微调 (Supervised Fine-Tuning):是指在一个已经经过大规模无监督预训练的模型(比如语言模型)基础上,利用带有标签的监督数据进行微调。通过这种方式,模型能够更好地适应特定任务,提升其在特定领域或任务中的表现。
  • 自监督学习 (Self-supervised Learning):利用数据自身的隐藏结构作为监督信号的学习方式。预训练时通常采用自监督,如通过预测下一个词或被遮蔽词来训练模型,无需人工标注标签。
  • 无监督学习 (Unsupervised Learning):不依赖人工标注数据的学习范式。自监督学习可视作无监督的一种,大模型预训练典型地属于无监督学习,因为使用的是未标注的纯文本。
  • 监督学习 (Supervised Learning):利用带标签的数据进行训练的方式。模型从输入到输出有明确的目标信号。微调阶段若有人工标注的数据(如问答对、翻译对等),通常采用监督学习。
  • 强化学习 (Reinforcement Learning):通过“奖励”和“惩罚”信号来训练智能体(模型)决策的学习方式。在LLM中,引入 RL 可以让模型在没有标准答案的情况下通过试错和奖励信号自主改进(例如训练模型自行探索推理链)。
  • 人类反馈强化学习 (RLHF, Reinforcement Learning from Human Feedback):一种微调技术,结合人类偏好来调整模型输出。训练时由人或代理对模型输出进行反馈打分,模型通过强化学习算法(如 PPO)优化,使输出更符合人类期望。这是 ChatGPT 成功的关键训练步骤。
  • 损失函数 (Loss Function):衡量模型输出与目标差距的函数。训练过程中,模型以最小化损失函数为目标调整参数。语言模型常用交叉熵损失来衡量预测下一个词的准确程度(困惑度也是基于损失计算的一种指标)。
  • 反向传播 (Backpropagation):训练神经网络的算法。通过将损失对参数的偏导数从输出层一路传播回输入层指导每层参数的调整方向和幅度,从而逐步优化模型
  • 梯度下降 (Gradient Descent):一种迭代优化方法。每次根据梯度信息更新模型参数,使损失下降。大模型训练常用小批量梯度下降及其变体(如 Adam 优化器)高效收敛参数。
  • 优化器 (Optimizer):用于调整模型参数的算法。不同优化器有不同的参数更新策略,如 SGD、Adam 等。Adam 是一种对梯度进行一阶二阶动量校正的优化器,在训练大模型时应用广泛。
  • 训练数据 (Training Data):用于训练模型的语料或样本集合。LLM 的预训练数据通常规模极其庞大,来自网络抓取的文本(网页、书籍、维基百科等),涵盖多领域、多语言内容。数据质量和多样性对模型能力影响很大。
  • 数据集 (Dataset):指经过整理可用于训练或评测的一组数据。一些著名数据集如 Wikipedia 文本、Common Crawl 语料等被用于预训练。下游任务也有专门的数据集用于微调和评估(如 SQuAD 问答数据集等)。
  • 训练轮次 (Epoch):遍历整个训练数据集一次称为一个 epoch。由于预训练语料极大,LLM 的预训练通常以数个 epoch 甚至不到 1 个 epoch 完成(即训练中可能并未完整看过所有语料)。
  • 批量 (Batch):训练时一次性送入模型并计算一次梯度更新的一组样本。批量越大,梯度估计越稳定但显存消耗也越高。大模型训练常用分布式并行来增大等效批量。

模型能力与行为

  • 迁移学习 (Transfer Learning):将模型在一个场景/任务中学到的知识迁移到新任务的能力。LLM通过预训练学到通用语言能力,再通过微调快速适应新任务,就是迁移学习的典型应用。
  • 泛化 (Generalization):模型在训练数据以外的未知输入上保持良好表现的能力。大模型参数多样,泛化能力通常较强,但仍可能受训练分布影响,在陌生领域表现下降。
  • 过拟合 (Overfitting):模型在训练集上表现很好,但在新数据上效果变差的现象。大模型虽数据量巨大,但若训练不当也会过拟合某些模式。通过正则化、增加数据多样性等可缓解过拟合。
  • 思维链 (Chain-of-Thought, CoT):指模型在解题时按步骤逐条推理的过程。思维链可以是模型内部隐式进行的,也可以通过提示让模型显式输出。CoT有助于复杂推理,模拟人类逐步解题的思路。
  • 零样本学习 (Zero-Shot Learning):模型无需任何示例演示,直接根据指令完成任务的能力。LLM常能零样本完成多种任务,因为预训练已涵盖相关模式。
  • 少样本学习 (Few-Shot Learning):模型仅需很少的示例(如在提示中提供1到几条范例)就能理解新任务并产生良好结果的能力。GPT-3展现了惊人的少样本学习能力,提示中的示例使模型在不额外训练的情况下执行特定任务。
  • 上下文学习 (In-Context Learning):模型通过输入提示中的上下文(包括任务描述和示例)进行即时学习,完成当前任务,而不改变内部权重。本质上是零样本/少样本学习,是大模型利用提示上下文来调节输出的能力。
  • 上下文窗口 (Context Window):模型在一次推理中能利用的文本长度范围,即模型“记忆”的对话或文本长度。上下文窗口通常用token数量衡量,如GPT-3为2048 tokens,GPT-4可达32k,新的模型甚至支持更长上下文。
  • 多轮对话 (Multi-turn Dialogue):模型在对话中保持上下文连续性的能力。即使经过多轮问答,模型仍能记住之前的对话内容并做出符合上下文的回答。这需要足够大的上下文窗口和对话状态管理能力。
  • 模型对齐 (Alignment):模型的行为与人类意图和价值观保持一致。例如,不产生有害内容、遵守用户指令等。对齐通过训练过程中的RLHF等实现,是确保模型安全可靠的重要方面。
  • 幻觉 (Hallucination):模型生成了看似权威但实际上虚假的信息。这是大模型常见问题,因为模型是基于概率生成文本,可能编造不存在的事实。减少幻觉需要改进训练数据和对齐,使模型更诚实。
  • 偏见 (Bias):模型由于训练数据中的偏颇而表现出的歧视性或偏见倾向。例如性别、种族偏见等。偏见是训练数据和社会偏见的反映,需通过数据平衡和后处理来缓解。
  • 安全 (Safety):指模型避免输出有害、违法、不当言论的能力,包括避免产生仇恨言论、隐私信息、危险指引等。为确保安全,模型需要结合内容过滤、安全指令和对齐训练等措施。
  • 涌现能力 (Emergent Abilities):大模型在参数规模增大后意外出现的新能力。这些能力在较小模型中不存在,但模型变“大”后突然出现,如复杂算术、多步推理等。研究发现某些任务性能随着模型规模呈非线性提升,被称为涌现现象。
这里是格式化后的文本:

应用与技术

  • 提示 (Prompt):用户输入给模型的指令或提问。有时也指包含背景、示例在内的一整段输入。
    • 好的提示设计(Prompt Engineering)可以引导模型产生所需格式和内容的输出。
  • 提示工程 (Prompt Engineering):设计和优化输入提示的技巧。通过措辞、提供示例、限定格式等方式,最大程度发挥模型能力、控制模型输出。例如要求模型逐步推理、以特定模板回答等。
  • 工具使用 (Tool Use):指模型调用外部工具或API以完成复杂任务的能力。例如借助计算器进行数学运算、调用搜索引擎获取实时信息等。高级LLM可以与插件集成,从而查询数据库、执行代码等。
  • 嵌入 (Embedding):将单词或句子映射到向量空间的表示方法。模型将语言转换为连续的密集向量(embedding)以便神经网络处理。语义相似的词在嵌入空间中距离更近。
  • 嵌入空间 (Embedding Space):由嵌入向量组成的高维向量空间。模型在该空间中表示词语或句子意义。通过训练,模型学得一个使相关概念在向量空间接近的表示空间。
  • 标记 (Token):模型处理的最小文本单位,可以是一个字、一个词片段或一个符号。大语言模型对输入进行分词(tokenization)后再处理,每个token通常对应某种子词或字符序列。
  • 分词 (Tokenization):将文本拆分成token序列的过程。常用方法如BPE(字节对编码)等,将文本切分为模型词汇表中的基本单元。正确的分词能提升模型对罕见词的处理效率。
  • 词汇表 (Vocabulary):模型可识别的全部token集合。预训练时定义固定词汇表,包括常见词和词片段等。输入输出都基于词汇表编码,未登录词通常拆解为更小的已知片段表示。
  • 模型推理 (Inference):指使用训练好的模型生成输出的过程。给定输入后,模型经过前向计算得到预测结果。在推理阶段模型参数冻结不变,仅用于计算。也称“推断”或“测试”阶段。
  • 量化 (Quantization):一种模型压缩和加速技术,将模型权重从高精度(如32位浮点)降低为低精度(如8位或4位整数)表示,以减小模型大小和提高推理速度。适当的量化可大幅减少计算量,同时尽量保持模型性能。
  • 知识蒸馏 (Knowledge Distillation):通过训练一个小模型去模仿一个大模型的输出来自压缩模型的方式。大模型作为“教师”,小模型作为“学生”。学生模型通过学习教师模型在大量输入上的预测分布,获得接近教师的性能,但参数远少于教师模型。
  • 低秩适应 (LoRA, Low-Rank Adaptation):一种高效微调技术,冻结原模型权重,仅在每层权重矩阵上添加小的低秩矩阵作为可训练参数。这样微调时需要训练的参数大幅减少,内存占用低,易于在资源有限的环境下快速调优大模型。
  • 混合专家 (Mixture-of-Experts, MoE):一种模型架构,将模型划分为多个“专家”子模型,每个专家擅长不同类型的数据。输入通过一个门控网络路由到不同专家,只激活一部分专家参与计算。这样可以在总参数量很大的情况下,每次推理只用到一小部分参数,降低计算成本并提高模型容量。
  • 模拟推理 (Simulated Reasoning):一种让模型在产生最终回答前进行内部思考的技术。模型会隐式地生成并评估中间推理步骤,再形成最后答案。这类似于人类先思考再作答,提升了模型复杂推理和规划的能力。OpenAI的O3模型采用了模拟推理机制,实现私有的“链式思考”过程,从而在解决复杂问题时表现更好。
  • 多模态 (Multimodal):支持多种模态输入/输出的模型。传统LLM只处理文本,而多模态模型还能处理图像、音频等。例如GPT-4o可以接收图像和音频输入,Claude 3.5拥有视觉能力。多模态让模型有更广泛的应用场景。
  • 多语言 (Multilingual):支持多种语言的模型。在预训练语料含多语言时,LLM可掌握多语言能力。GPT-4o支持50多种语言,Llama系列也提供多语言模型。这使模型能够跨语言交流和翻译。
  • 问答 (Question Answering):让模型根据给定的问题和背景材料,生成准确答案的任务。问答是LLM常见应用之一,许多基准(如SQuAD、自然问答等)用于评测模型的问答能力。
  • 文本摘要 (Text Summarization):将一段长文本压缩为短摘要的任务。LLM通过理解文本主旨并生成简明扼要的总结,实现自动摘要。这要求模型抓住关键信息并用简洁语言表达。
  • 机器翻译 (Machine Translation):将一种语言的文本翻译成另一种语言。大型预训练模型在双语语料上微调后,可执行高质量的自动翻译,甚至在零样本下完成跨语言翻译(依赖模型的多语言能力)。
  • 代码生成 (Code Generation):根据自然语言描述自动生成源代码的任务。LLM(如OpenAI Codex、Code Llama等)能将问题描述转换成可执行的代码。HumanEval等基准专门用于评测代码生成正确率。
  • 对话模型 (Conversational Model):经过特殊训练可进行对话交互的语言模型。通过在大量对话数据和指令上微调,这类模型能够理解对话上下文、保持角色一致性并给出连贯回应。ChatGPT就是典型的对话模型。
  • 基础模型 (Foundation Model):指在海量数据上训练的通用大模型,可适配于各种下游任务。基础模型本身不针对特定任务,但通过微调或提示,可用于翻译、问答、对话等多种应用。大语言模型通常被视为AI领域的基础模型。
  • 开源模型 (Open-source Model):公开模型架构和权重,允许用户自由使用和修改的大模型。典型如Meta的Llama系列(在许可证下开放模型权重)、Bloom等。开源模型能被社区复现和改进,有助于科研和应用民主化。
  • 闭源模型 (Proprietary Model):未公开细节,仅通过API或特定接口提供服务的模型。如OpenAI的GPT-4、Anthropic的Claude等。闭源模型往往性能领先但使用受限,由公司控制。
  • 基准测试 (Benchmark):评价模型性能的标准化测试集合。通过在公共基准上的表现,可客观比较不同模型的能力(详见下节)。模型开发者常以各种Benchmark成绩来展示模型改进。
  • 通用人工智能 (AGI, Artificial General Intelligence):一种理论上的人工智能,能胜任人类能够执行的所有智力任务。AGI通常被视为AI发展的终极目标。当前的大语言模型已在某些认知任务上接近人类水平,但仍不是严格意义上的AGI。
  • 检索增强生成 (RAG, Retrieval-Augmented Generation):在生成文本时结合检索系统的技术。模型先根据查询从外部知识库检索相关资料,然后将资料与提示一起输入,以生成基于实时知识的准确回答。这种方法提高了答案的可靠性,减少幻觉,在问答等应用中很实用。
  • 多任务学习 (Multi-task Learning):在单一模型中同时学习处理多种不同任务的能力。LLM的预训练可看作隐式的多任务学习(学习了语言建模、知识记忆等多方面任务),而一些研究也尝试在微调时让模型同时优化多任务目标,从而提升模型的通用性。
  • GPT (Generative Pre-trained Transformer):指OpenAI推出的生成式预训练Transformer模型系列。GPT-1到GPT-4不断扩大参数规模和能力,其中GPT-3展现了惊人的零/少样本学习能力,GPT-4进一步增强推理和多模态能力。GPT本身已成为强大语言模型的代名词。
  • BERT (Bidirectional Encoder Representations from Transformers):谷歌在2018年发布的双向编码器预训练模型。BERT采用掩蔽语言模型预训练,擅长理解类任务,在问答和分类等NL

大语言模型基准测试(Benchmarks)

衡量大语言模型能力通常依赖一系列基准测试(Benchmarks)。这些基准是预先构建的标准测试集或任务集合,用于评估模型在知识、推理、理解、生成功能等方面的表现。随着模型能力提升,基准测试也在不断演进。以下是一些常见且最新的大语言模型基准及其作用:

1. GLUE/SuperGLUE

  • 功能:用于评测自然语言理解的基准集合,包含文本蕴含、问答、情感分析等九项任务。
  • SuperGLUE:是GLUE的升级版,任务更加困难。
  • 意义:LLM在这些基准上已接近或超过人类水平,标志着模型对基础NLP任务的掌握。

2. MMLU (Massive Multitask Language Understanding)

  • 功能:涵盖57个学科的考试题,难度相当于大学本科水平。
  • 意义:用于测试模型的广泛知识和理解能力。GPT-4在MMLU上得分88.7,超越了GPT-4的86.5。
  • 衍生:MMLU-Pro包含更高难度的问题,用于进一步区分顶尖模型的知识极限。

3. BIG-bench (Beyond the Imitation Game)

  • 功能:由开放AI社区创建的大型基准,包含约200项多样化任务,从数学推理到创意写作,应有尽有。
  • 意义:用于发掘模型的长尾能力和奇特行为,旨在探测模型的综合AI能力,对标通用智能。

4. ARC (AI2 Reasoning Challenge)

  • 功能:有两个不同的基准使用该缩写。一个是Allen AI的ARC,包含中小学科学考试题,考察常识推理;另一个是ARC-AGI,由François Chollet提出,是一套抽象图形推理任务,接近“智力测验”范畴。
  • 意义:ARC-AGI要求模型在给定示例的基础上推理输出图形,用于评估类比和抽象推理能力。OpenAI的o3模型在ARC-AGI可视化推理上达到87.5%的准确率,与人类85%的水平相当。

5. HellaSwag

  • 功能:常识推理基准,给出不完整的句子或短文,让模型从选项中选择最合理的结尾。
  • 意义:由于题目经过对抗过滤,表面模式难以奏效,模型需依赖常识和推理。LLM在HellaSwag上的准确率可衡量模型的常识推理能力。

6. TruthfulQA

  • 功能:由817道开放问答题组成,专门测试模型回答是否真实且不受训练中常见谣言误导。
  • 意义:测试模型避免迎合虚假或误导性说法,是评估模型真实性和抗幻觉能力的重要基准。

7. 数学与逻辑基准

  • 功能:如GSM8K(小学数学文字题)、MATH数据集(包含中学数学竞赛题),以及AIME 2024等数学竞赛题库。
  • 意义:用于测试模型的数学推理与计算能力。数学问题通常需要多步推理和精确计算,是模型的一大挑战。最新模型(如DeepSeek-R1和Kimi k1.5)在这些基准上取得突破性成绩。

8. 编码与编程基准

  • 功能:如HumanEval和Codeforces。HumanEval是编程题集合,要求模型生成满足特定功能要求的Python代码;Codeforces是竞技编程平台,通过评估模型解题能力来测试代码效率。
  • 意义:Claude 3.5等模型在HumanEval上显著提高了代码正确率,展示了出色的编程能力。OpenAI的o3模型在Codeforces难题上表现达到高水平。

9. GPQA & GPQA Diamond

  • 功能:GPQA(Graduate-level Google-Proof Q&A)是2023年提出的新基准,由专业人士撰写的研究生水平生物、物理、化学选择题,旨在规避网络直接查询。
  • 意义:PhD专家答对率约为65%,非专业人士即使上网查资料也只有34%的正确率。GPQA强调深度科学推理,而非简单记忆,是考验模型高层次推理和可靠性的利器。GPQA Diamond则为挑战顶尖模型设计,难度极高。

总结

这些基准测试各有侧重,有的考查语言理解与常识(如GLUE、HellaSwag),有的评估知识广度(如MMLU)、推理深度(如GPQA)、数学编程能力(如MATH、HumanEval)或真实性(如TruthfulQA)。研究者通过在这些基准上的测试,了解模型的长短板,推动模型朝着更全面智能的方向改进。
 

模型设计思路

有的模型追求更大的规模和多样的技能,例如谷歌的Palm和后续的Gemini,据信集成了强化学习、视觉-语言融合等多种技术,力图打造“通才”模型。
也有模型专注于推理能力的提升,例如OpenAI的O系列模型(O1、O3)强调增强模型的逻辑思考过程,采用了模拟推理 (Simulated Reasoning) 等新技术。通过在生成答案前让模型进行内部的连贯“思考”,O系列模型在复杂问题上的正确率显著提高。
类似地,Google的Gemini 2.0被报道引入了“Flash Thinking”机制,与模拟推理异曲同工,旨在让模型更好地规划解题步骤。还有一些模型在架构上引入模块化或稀疏激活思想,例如DeepMind的Gopher曾探索不同模块协作,NVIDIA的Megatron-Turing提及专家混合(MoE)的规模化应用。通过让不同部分专精不同任务,这类模型提升了整体能力。
而开源社区中出现的如MPT等模型则注重长上下文,有针对性地将上下文窗口扩展到数十万token,以满足长文档处理需求。总之,不同设计思路体现在:有的扩大模型规模追求广度,有的改良内部机制增强深度推理,有的面向特定应用(如超长文本、多模态),体现了架构设计的多样化。

模型训练方式

大语言模型主要采用自监督学习进行预训练,具体可以是自回归或填空式的训练目标(前文已介绍)。自回归预训练让模型学会语言生成(如GPT系列从海量文本中学习“下一个词概率”);遮蔽式预训练让模型学会双向理解(如BERT通过在句中预测被遮挡词来学习上下文表示)。
无论哪种预训练方式,本质上都是利用海量未标注文本,让模型学习语言模式和知识。这属于自监督预训练范式,使模型具备通用语言能力。预训练完成后,还会进行监督微调和对齐调优。监督微调使用人工标注的数据,例如将模型在翻译语料、问答对话等数据上训练,使其输出符合任务需求。
近年来更强调对模型进行指令调优,即使用人类编写的大量问答对话、指令执行示例来微调模型,使其更善于遵循指示和进行对话。这一步骤让模型从“预测下一个词”转变为“完成用户指定的任务”。
在此基础上,领先的对话模型还采用RLHF(人类反馈强化学习)进一步打磨。具体做法是:先由模型生成多个回答,人工或辅助模型对回答质量打分,然后通过强化学习(如PPO算法)调整模型参数,使其倾向于得分高的回答。RLHF有效减少了模型不符合用户期望的回答,使回复更加礼貌、有用、安全。
除了RLHF,也有研究尝试纯强化学习来训练模型。例如DeepSeek团队尝试不使用任何监督数据,仅靠模型自我玩模拟环境(如解题尝试)获取奖励,训练出了DeepSeek-R1-Zero等模型。虽然纯RL训练的模型在可读性等方面尚有不足,但通过配合少量有监督微调作为“冷启动”,再加上群体策略优化(GRPO)算法,DeepSeek-R1成功实现了主要依赖RL来增强推理能力的训练范式。这种探索表明,强化学习有望成为继自监督之后另一条提升模型智能的“轴线”。

总结

大模型训练通常是“自监督预训练 + 有监督/指令微调 + 对齐调优”的多阶段流程,各环节各司其职:预训练赋予模型广博的知识,微调塑造模型执行特定任务的技能,强化学习则在人类偏好维度上优化模型行为,使其更符合实际应用需求。
 

优化方法与参数高效微调

由于LLM(大语言模型)参数极其庞大,训练和微调的计算成本惊人,很多优化技术应运而生,以提高效率或降低资源占用。其中一类是参数高效微调(PEFT)方法,代表之一就是前面提到的LoRA(低秩适应)。
LoRA方法在微调时冻结原有的大部分模型权重,仅在每层引入几个小矩阵作为可训练参数,训练这些小矩阵来适应新任务。这些小矩阵的秩很低,因此参数量和所需算力远小于全量微调。LoRA的好处是能够用很少的计算资源,在保持预训练模型知识的同时快速微调出新能力。许多开源模型(如Llama、GPT-J等)都支持LoRA微调,极大降低了社区复用大模型的门槛。
另一类重要技术是混合专家(MoE)。这是提高训练和推理效率的架构创新,将模型的某些层扩展为包含多个“专家”子网络的形式。每次仅激活与输入最相关的少数专家,而非让所有参数都参与计算。这样一来,模型总参数量可以非常大(每增加一个专家就多一份参数),但实际每步计算只使用到一小部分专家,等于稀疏化了计算图。
MoE使得“训练一个1万亿参数模型”的成本比等规模稠密模型低很多,因为计算开销按激活的专家数量而非总专家数来算。谷歌的Switch Transformer和Sparse Mixture of Expert就是MoE成功应用的例子。
一些开源模型(如DeepSeek-V3)也采用了MoE架构作为基础,通过极大的参数规模提升预训练效果,然后通过强化学习(RL)等手段增强推理能力。
除了微调和架构优化,优化算法的改进也不可忽视。为保证训练稳定,大模型常使用自适应优化器(如AdamW)配合分段学习率调度策略,并辅以梯度裁剪、预热等技巧,防止梯度爆炸或消失。Facebook研究发现了规模化法律(Scaling Laws),指导在给定算力下如何平衡参数规模与训练步骤,以最优地提升模型性能,这也是训练策略优化的一部分。
总之,从LoRA这类微调技巧,到MoE这样的架构调整,再到训练过程超参数的精细调控,这些优化方法共同支撑了如今LLM的高效训练和部署,让我们能够在相对可控的资源下驯服超大规模的模型。

推理加速技术

大模型在推理阶段的加速同样至关重要,直接影响实际应用的速度和成本。常用的加速手段之一是模型压缩。除了量化和蒸馏,另一个常见方法是权重剪枝(Pruning),即删除对最终结果贡献很小的连接或神经元,从而减小模型规模。剪枝可以在几乎不损失精度的情况下大幅压缩模型,比如一些研究对GPT类模型剪枝30%的参数,而性能基本不变。
图优化也是一个重要方向,即通过底层实现改进提高计算效率。例如,自注意力计算可以使用更高效的算法(如Flash Attention)实现,以减少显存访问和计算冗余,从而加速数倍。还有针对Transformer结构的深度,提出的重计算(Recompute)技术,它在不增加显存的前提下通过多次计算换取时间,平衡了存储和算力。
在硬件方面,混合精度推理已经成为标准做法:使用FP16甚至更低精度进行矩阵乘法运算,同时保留少部分关键运算使用高精度,以兼顾速度和稳定性。现代GPU和TPU都对低精度计算进行了优化,使得模型在推理时能跑得更快。
批处理推理可以提升吞吐量——将多个输入打包一起推理,充分利用矩阵运算的并行性,但这需要有足够的请求量支持。对于需要低延迟的交互式应用,还可以采用多路复用技术,让一个大模型实例同时服务多个会话而不明显减速。缓存机制也是实用的加速方案,例如对Transformer解码过程的中间状态缓存,避免每生成一个词就重复计算先前的注意力,这在长文本生成时效果显著。
最后,随着模型规模增大,专用加速硬件的作用愈发突出。除了GPU,Google TPU、亚马逊Inferentia、寒武纪MLU等AI芯片都针对Transformer推理进行了优化。例如,一些芯片有稀疏计算加速单元,专门加速MoE模型的专家路由计算。再如,大显存硬件允许将模型完全放入内存,避免频繁的数据交换延迟。
综合运用这些技术,当前已经可以在消费级硬件上以量化4-bit形式运行一个数十亿参数的模型,在云端通过高度优化的集群实时提供千亿参数模型的响应。这些推理加速手段保证了大模型能够以可用的速度和成本服务于实际应用,从手机上的离线文本生成,到服务器上的海量请求处理。
 
 
 
上一篇
从零开始理解LLM
下一篇
Transformer