大模型核心概念分类

大模型相关概念很多，容易混在一起。更清楚的方式是按层次看：先理解模型如何读输入，再理解模型内部如何计算，然后看训练、微调、推理部署和应用增强。

大模型概念分层图

基础表示层

Token

Token 是模型处理文本的基本单位。它不一定等于一个字或一个词，可能是一个汉字、一个英文词片段、一个符号组合。模型看到的不是原始字符串，而是 token 序列。

Token 影响两个实际问题：

成本：很多模型按输入和输出 token 计费。
上下文长度：窗口限制通常按 token 计算，不按字数计算。

Embedding

Embedding 是把 token、句子、图片片段等内容转换成向量。向量可以理解成“机器可计算的位置坐标”：语义相近的内容，在向量空间里距离通常更近。

Embedding 常用于检索增强：先把文档切块转成向量，用户提问时也转成向量，再找相近文档片段放进上下文。

上下文窗口

上下文窗口是模型一次能看到的 token 范围。窗口越大，能放进来的资料越多，但不代表模型会同等重视每个位置。长上下文仍然需要筛选、分段和摘要。

架构层

Transformer

Transformer 是当前大语言模型的主流架构。它的核心能力是让序列中不同位置互相计算关系，而不是只能按顺序逐字处理。

直观理解：模型在生成下一个 token 前，会回看上下文里哪些位置最相关，再综合这些信息做预测。

Attention

Attention 是 Transformer 的关键计算机制。它不是人类注意力，而是一种权重分配：当前位置和上下文中其他位置有多相关。

在代码解释任务中，模型可能把报错行、变量定义、函数调用、配置项关联起来。Attention 让这种跨位置关联成为可能。

MoE

MoE（Mixture of Experts，混合专家）是一种把模型内部部分参数拆成多个“专家”的架构。每次处理 token 时，路由器只选择其中一部分专家参与计算。

可以把 MoE 理解成大型会诊系统：不是每个问题都让所有专家同时工作，而是先判断问题类型，再叫少数相关专家参与。

它的价值：

总参数可以很大。
每次推理只激活部分参数，计算成本可控。
不同专家可以学习不同模式。

它的代价：

训练和部署更复杂。
路由不均衡会导致部分专家过载。
分布式推理对通信和调度要求更高。

训练与对齐层

预训练

预训练让模型从大规模数据中学习语言结构、知识关联和生成模式。它解决“模型会不会读写和续写”的问题。

预训练成本最高，也最接近模型底座能力。

SFT

SFT 让模型更会按指令、格式和领域流程回答。它不是补全部知识，而是训练“怎么按样例办事”。详细说明见 SFT。

RLHF 与 DPO

RLHF 通过人类偏好反馈进一步调整模型行为，目标是让回答更符合人类偏好。DPO 则是另一类偏好优化方法，常用于用“更好/更差”的成对样例直接优化模型。

它们解决的是“回答更符合偏好和边界”的问题，不是让模型自动拥有实时事实。

参数适配层

LoRA

LoRA（Low-Rank Adaptation）是一种参数高效微调方法。它不直接大规模改动原模型参数，而是在部分权重旁边增加小规模可训练矩阵。

直观理解：不重建整台机器，只给关键部件加一套可替换调节片。

适合：

算力有限。
想快速适配领域风格。
同一个底座模型需要多个业务版本。

不适合：

底座模型能力本身不足。
需要注入大量频繁变化的新知识。
没有高质量样例。

QLoRA

QLoRA 是在量化基础上做 LoRA 微调。它通过降低底座模型存储和计算压力，让更大模型能在较低显存环境下微调。

它常用于资源有限但又想微调较大模型的场景。

Adapter

Adapter 也是参数高效微调的一类方法，通过插入小模块适配特定任务。它与 LoRA 的目标类似：少改底座，多训练小部件。

推理部署层

KV Cache

大模型生成时会逐 token 输出。如果每生成一个 token 都重新计算全部历史，成本很高。KV Cache 会缓存历史上下文的中间结果，让后续生成更快。

它对长对话和流式生成尤其重要。

量化

量化是用更低精度表示模型权重或计算结果，例如从 FP16 降到 INT8、INT4。目标是降低显存和推理成本。

代价是可能损失部分精度。是否可用要看任务对准确率、稳定性和速度的要求。

批处理

批处理把多个请求合并执行，提高硬件利用率。它能提升吞吐，但可能增加单个请求的等待时间。

在线服务要在吞吐、延迟和成本之间取平衡。

推测解码

推测解码用一个较小模型先快速猜测多个 token，再由大模型验证。它的目标是提高生成速度，但实现复杂度和适用效果取决于模型组合和业务场景。

应用增强层

RAG

RAG（Retrieval-Augmented Generation，检索增强生成）把外部资料检索结果放进上下文，让模型基于资料回答。

它适合知识更新频繁、需要引用来源、不能把全部知识写进参数里的场景。

工具调用

工具调用让模型请求外部系统执行动作，例如查订单、算价格、读文件、发请求。模型负责提出意图，工具层负责校验、执行和返回结果。

Agent

Agent 把模型、工具、状态和反馈组织成任务循环。它适合多步骤、可验证、需要与环境交互的任务。

评估与风险层

幻觉

幻觉是模型生成了看似合理但不准确的内容。常见处理方式是检索增强、引用来源、工具验证、低置信度转人工。

对齐

对齐关注模型行为是否符合人类意图、规则和安全边界。它既包括训练方法，也包括产品层的权限、审核和拒答策略。

Benchmark 与业务评估

Benchmark 能反映通用能力，但业务上线更需要场景评估：真实问题、真实数据、真实失败成本。一个模型在通用榜单上高分，不代表在企业客服、代码迁移、风控解释中一定更好。

总结

大模型概念可以分成六层：基础表示、模型架构、训练对齐、参数适配、推理部署和应用增强。LoRA 解决低成本适配，MoE 解决大参数与计算成本的平衡，RAG 和工具调用解决外部知识与行动问题。理解这些概念时，要先判断它属于哪一层，再看它解决什么问题、引入什么代价。

大模型核心概念分类 ​

基础表示层 ​

Token ​

Embedding ​

上下文窗口 ​

架构层 ​

Transformer ​

Attention ​

MoE ​

训练与对齐层 ​

预训练 ​

SFT ​

RLHF 与 DPO ​

参数适配层 ​

LoRA ​

QLoRA ​

Adapter ​

推理部署层 ​

KV Cache ​

量化 ​

批处理 ​

推测解码 ​

应用增强层 ​

RAG ​

工具调用 ​

Agent ​

评估与风险层 ​

幻觉 ​

对齐 ​

Benchmark 与业务评估 ​

总结 ​