Appearance
大语言模型
大语言模型是一类在海量文本和多模态数据上训练出来的生成模型。它的基本工作方式是:读取上下文,把内容切成 token,计算这些 token 之间的关系,然后一步步生成后续 token。
它不是传统意义上的资料库,也不是只会匹配模板的问答系统。更准确的理解是:它学会了语言、知识、推理模式和表达方式,在给定上下文中生成最可能、最符合指令的结果。
与其他模块的关系
- 机器学习是基础方法,大语言模型是其中一类规模化生成模型。
- 大模型常见概念按层次整理在 核心概念分类。
- 训练、LoRA、QLoRA、偏好对齐等内容见 训练与微调。
- KV Cache、量化、批处理、MoE 部署等内容见 推理与部署。
- RAG、工具调用和外部知识接入见 RAG 与工具调用。
- SFT 用来让基础模型更会按指令、格式和场景回答,见 SFT。
- 智能体把大语言模型放进“观察、计划、行动、反馈”的循环,见 智能体。
- MCP 和 Skill 分别解决工具连接和流程规则问题,见 MCP、Agent Skill。
概念地图
| 分类 | 解决的问题 | 典型概念 |
|---|---|---|
| 基础表示 | 模型如何读输入 | Token、Embedding、上下文窗口 |
| 模型架构 | 模型内部如何组织计算 | Transformer、Attention、MoE |
| 训练对齐 | 模型如何获得能力和行为边界 | 预训练、SFT、RLHF、DPO |
| 参数适配 | 如何低成本改变模型行为 | LoRA、QLoRA、Adapter |
| 推理部署 | 如何让模型在线服务更快更省 | KV Cache、量化、批处理、流式输出 |
| 应用增强 | 如何接入外部知识和动作 | RAG、工具调用、Agent、MCP |
它到底在做什么
从用户输入到回答,大致分四步:
- 把提示词、历史对话、检索资料、工具结果放入上下文。
- 把上下文切成 token。
- 模型根据注意力机制计算上下文里哪些部分更相关。
- 模型生成下一个 token,再把它并回上下文继续生成。
所以,大模型的输出强烈依赖上下文。上下文给错、给少、给乱,模型就会在错误资料上认真发挥。
Transformer 的直观理解
Transformer 的关键是注意力机制。注意力不是“模型有意识地关注”,而是一个计算过程:当前位置在生成时,会给上下文中不同位置分配不同权重。
例如让模型回答“这段代码为什么报空指针”,它可能需要同时关注:
- 报错堆栈中的行号。
- 变量在哪里赋值。
- 方法调用前有没有判空。
- 配置或输入是否可能缺失。
注意力机制让模型能在长上下文中建立关联,但它不保证关联一定正确。模型可能把看似相关的内容连在一起,形成自洽但错误的解释。
大模型擅长什么
| 任务 | 适合原因 | 使用提醒 |
|---|---|---|
| 摘要和改写 | 语言压缩和表达能力强 | 要保留事实边界,避免新增信息 |
| 代码辅助 | 能理解模式、API、错误信息 | 必须跑测试或构建验证 |
| 结构化提取 | 能从非结构文本抽取字段 | 需要 schema 和异常样例 |
| 方案比较 | 能整理维度和取舍 | 当前信息要检索确认 |
| 对话式解释 | 能按读者水平调整表达 | 高风险领域要引用权威资料 |
不擅长什么
大模型常见局限:
- 幻觉:生成看似合理但不存在的事实、API 或引用。
- 过度自信:不确定时也可能给出确定语气。
- 长上下文遗漏:资料很长时可能忽略关键细节。
- 数值和精确计算不稳定:复杂计算应交给工具。
- 当前信息不可靠:新版本、价格、法规、比赛结果等需要实时检索。
- 权限和安全不可替代:模型不能代替审计、鉴权和审批机制。
使用模型时,应把它当成强大的语言和推理组件,而不是最终事实来源。
上下文比提示词更重要
提示词告诉模型“要做什么”,上下文决定模型“依据什么做”。在工程任务里,上下文通常包括:
- 目标和验收标准。
- 相关源码、配置、测试、日志。
- 项目规范和禁止事项。
- 依赖版本和运行命令。
- 工具返回结果。
有效上下文不等于塞满窗口。更好的方式是选择相关材料、压缩历史、隔离不同任务、把长期规则写入文档。
典型应用链路
知识库问答
流程是:用户提问 -> 检索相关文档 -> 把文档片段放进上下文 -> 模型基于片段回答。
关键点:
- 检索召回要准,否则模型会基于错误材料回答。
- 回答应标出依据位置,方便人工核对。
- 没有检索到资料时,应明确说缺少依据。
代码助手
流程是:读取任务 -> 搜索相关文件 -> 形成修改计划 -> 改代码 -> 跑测试 -> 根据错误继续修。
关键点:
- 模型写出的代码必须通过工具验证。
- 大改动应拆成小步。
- 高风险代码需要人工 review。
文档整理
流程是:读取材料 -> 提取结构 -> 压缩重复 -> 保留关键结论、限制和操作步骤。
关键点:
- 不应把资料搜集过程写进正文。
- 事实变化快的内容要写清版本或日期。
- 摘要不能替代原文中的关键约束。
评估大模型应用
不要只看一次演示,要看稳定性:
| 维度 | 需要观察的问题 |
|---|---|
| 正确性 | 是否基于给定资料回答,是否编造事实 |
| 一致性 | 同类输入是否输出稳定格式和口径 |
| 可控性 | 能否拒绝越权请求,能否遵守边界 |
| 可验证性 | 输出能否被工具、测试或人工抽检验证 |
| 成本 | 上下文长度、调用次数、延迟是否可接受 |
| 安全 | 是否泄露敏感数据,是否执行危险动作 |
总结
大语言模型的核心能力是基于上下文生成有用内容。它的价值来自语言理解、模式迁移和生成能力;风险也来自生成机制本身。可靠使用大模型,需要把上下文、检索、工具、评估和权限一起设计,而不是只调提示词。
