Appearance
大模型核心概念分类
大模型相关概念很多,容易混在一起。更清楚的方式是按层次看:先理解模型如何读输入,再理解模型内部如何计算,然后看训练、微调、推理部署和应用增强。
基础表示层
Token
Token 是模型处理文本的基本单位。它不一定等于一个字或一个词,可能是一个汉字、一个英文词片段、一个符号组合。模型看到的不是原始字符串,而是 token 序列。
Token 影响两个实际问题:
- 成本:很多模型按输入和输出 token 计费。
- 上下文长度:窗口限制通常按 token 计算,不按字数计算。
Embedding
Embedding 是把 token、句子、图片片段等内容转换成向量。向量可以理解成“机器可计算的位置坐标”:语义相近的内容,在向量空间里距离通常更近。
Embedding 常用于检索增强:先把文档切块转成向量,用户提问时也转成向量,再找相近文档片段放进上下文。
上下文窗口
上下文窗口是模型一次能看到的 token 范围。窗口越大,能放进来的资料越多,但不代表模型会同等重视每个位置。长上下文仍然需要筛选、分段和摘要。
架构层
Transformer
Transformer 是当前大语言模型的主流架构。它的核心能力是让序列中不同位置互相计算关系,而不是只能按顺序逐字处理。
直观理解:模型在生成下一个 token 前,会回看上下文里哪些位置最相关,再综合这些信息做预测。
Attention
Attention 是 Transformer 的关键计算机制。它不是人类注意力,而是一种权重分配:当前位置和上下文中其他位置有多相关。
在代码解释任务中,模型可能把报错行、变量定义、函数调用、配置项关联起来。Attention 让这种跨位置关联成为可能。
MoE
MoE(Mixture of Experts,混合专家)是一种把模型内部部分参数拆成多个“专家”的架构。每次处理 token 时,路由器只选择其中一部分专家参与计算。
可以把 MoE 理解成大型会诊系统:不是每个问题都让所有专家同时工作,而是先判断问题类型,再叫少数相关专家参与。
它的价值:
- 总参数可以很大。
- 每次推理只激活部分参数,计算成本可控。
- 不同专家可以学习不同模式。
它的代价:
- 训练和部署更复杂。
- 路由不均衡会导致部分专家过载。
- 分布式推理对通信和调度要求更高。
训练与对齐层
预训练
预训练让模型从大规模数据中学习语言结构、知识关联和生成模式。它解决“模型会不会读写和续写”的问题。
预训练成本最高,也最接近模型底座能力。
SFT
SFT 让模型更会按指令、格式和领域流程回答。它不是补全部知识,而是训练“怎么按样例办事”。详细说明见 SFT。
RLHF 与 DPO
RLHF 通过人类偏好反馈进一步调整模型行为,目标是让回答更符合人类偏好。DPO 则是另一类偏好优化方法,常用于用“更好/更差”的成对样例直接优化模型。
它们解决的是“回答更符合偏好和边界”的问题,不是让模型自动拥有实时事实。
参数适配层
LoRA
LoRA(Low-Rank Adaptation)是一种参数高效微调方法。它不直接大规模改动原模型参数,而是在部分权重旁边增加小规模可训练矩阵。
直观理解:不重建整台机器,只给关键部件加一套可替换调节片。
适合:
- 算力有限。
- 想快速适配领域风格。
- 同一个底座模型需要多个业务版本。
不适合:
- 底座模型能力本身不足。
- 需要注入大量频繁变化的新知识。
- 没有高质量样例。
QLoRA
QLoRA 是在量化基础上做 LoRA 微调。它通过降低底座模型存储和计算压力,让更大模型能在较低显存环境下微调。
它常用于资源有限但又想微调较大模型的场景。
Adapter
Adapter 也是参数高效微调的一类方法,通过插入小模块适配特定任务。它与 LoRA 的目标类似:少改底座,多训练小部件。
推理部署层
KV Cache
大模型生成时会逐 token 输出。如果每生成一个 token 都重新计算全部历史,成本很高。KV Cache 会缓存历史上下文的中间结果,让后续生成更快。
它对长对话和流式生成尤其重要。
量化
量化是用更低精度表示模型权重或计算结果,例如从 FP16 降到 INT8、INT4。目标是降低显存和推理成本。
代价是可能损失部分精度。是否可用要看任务对准确率、稳定性和速度的要求。
批处理
批处理把多个请求合并执行,提高硬件利用率。它能提升吞吐,但可能增加单个请求的等待时间。
在线服务要在吞吐、延迟和成本之间取平衡。
推测解码
推测解码用一个较小模型先快速猜测多个 token,再由大模型验证。它的目标是提高生成速度,但实现复杂度和适用效果取决于模型组合和业务场景。
应用增强层
RAG
RAG(Retrieval-Augmented Generation,检索增强生成)把外部资料检索结果放进上下文,让模型基于资料回答。
它适合知识更新频繁、需要引用来源、不能把全部知识写进参数里的场景。
工具调用
工具调用让模型请求外部系统执行动作,例如查订单、算价格、读文件、发请求。模型负责提出意图,工具层负责校验、执行和返回结果。
Agent
Agent 把模型、工具、状态和反馈组织成任务循环。它适合多步骤、可验证、需要与环境交互的任务。
评估与风险层
幻觉
幻觉是模型生成了看似合理但不准确的内容。常见处理方式是检索增强、引用来源、工具验证、低置信度转人工。
对齐
对齐关注模型行为是否符合人类意图、规则和安全边界。它既包括训练方法,也包括产品层的权限、审核和拒答策略。
Benchmark 与业务评估
Benchmark 能反映通用能力,但业务上线更需要场景评估:真实问题、真实数据、真实失败成本。一个模型在通用榜单上高分,不代表在企业客服、代码迁移、风控解释中一定更好。
总结
大模型概念可以分成六层:基础表示、模型架构、训练对齐、参数适配、推理部署和应用增强。LoRA 解决低成本适配,MoE 解决大参数与计算成本的平衡,RAG 和工具调用解决外部知识与行动问题。理解这些概念时,要先判断它属于哪一层,再看它解决什么问题、引入什么代价。
