Skip to content

大语言模型

大语言模型是一类在海量文本和多模态数据上训练出来的生成模型。它的基本工作方式是:读取上下文,把内容切成 token,计算这些 token 之间的关系,然后一步步生成后续 token。

它不是传统意义上的资料库,也不是只会匹配模板的问答系统。更准确的理解是:它学会了语言、知识、推理模式和表达方式,在给定上下文中生成最可能、最符合指令的结果。

大语言模型生成流程

与其他模块的关系

  • 机器学习是基础方法,大语言模型是其中一类规模化生成模型。
  • 大模型常见概念按层次整理在 核心概念分类
  • 训练、LoRA、QLoRA、偏好对齐等内容见 训练与微调
  • KV Cache、量化、批处理、MoE 部署等内容见 推理与部署
  • RAG、工具调用和外部知识接入见 RAG 与工具调用
  • SFT 用来让基础模型更会按指令、格式和场景回答,见 SFT
  • 智能体把大语言模型放进“观察、计划、行动、反馈”的循环,见 智能体
  • MCP 和 Skill 分别解决工具连接和流程规则问题,见 MCPAgent Skill

概念地图

分类解决的问题典型概念
基础表示模型如何读输入Token、Embedding、上下文窗口
模型架构模型内部如何组织计算Transformer、Attention、MoE
训练对齐模型如何获得能力和行为边界预训练、SFT、RLHF、DPO
参数适配如何低成本改变模型行为LoRA、QLoRA、Adapter
推理部署如何让模型在线服务更快更省KV Cache、量化、批处理、流式输出
应用增强如何接入外部知识和动作RAG、工具调用、Agent、MCP

它到底在做什么

从用户输入到回答,大致分四步:

  1. 把提示词、历史对话、检索资料、工具结果放入上下文。
  2. 把上下文切成 token。
  3. 模型根据注意力机制计算上下文里哪些部分更相关。
  4. 模型生成下一个 token,再把它并回上下文继续生成。

所以,大模型的输出强烈依赖上下文。上下文给错、给少、给乱,模型就会在错误资料上认真发挥。

Transformer 的直观理解

Transformer 的关键是注意力机制。注意力不是“模型有意识地关注”,而是一个计算过程:当前位置在生成时,会给上下文中不同位置分配不同权重。

例如让模型回答“这段代码为什么报空指针”,它可能需要同时关注:

  • 报错堆栈中的行号。
  • 变量在哪里赋值。
  • 方法调用前有没有判空。
  • 配置或输入是否可能缺失。

注意力机制让模型能在长上下文中建立关联,但它不保证关联一定正确。模型可能把看似相关的内容连在一起,形成自洽但错误的解释。

大模型擅长什么

任务适合原因使用提醒
摘要和改写语言压缩和表达能力强要保留事实边界,避免新增信息
代码辅助能理解模式、API、错误信息必须跑测试或构建验证
结构化提取能从非结构文本抽取字段需要 schema 和异常样例
方案比较能整理维度和取舍当前信息要检索确认
对话式解释能按读者水平调整表达高风险领域要引用权威资料

不擅长什么

大模型常见局限:

  • 幻觉:生成看似合理但不存在的事实、API 或引用。
  • 过度自信:不确定时也可能给出确定语气。
  • 长上下文遗漏:资料很长时可能忽略关键细节。
  • 数值和精确计算不稳定:复杂计算应交给工具。
  • 当前信息不可靠:新版本、价格、法规、比赛结果等需要实时检索。
  • 权限和安全不可替代:模型不能代替审计、鉴权和审批机制。

使用模型时,应把它当成强大的语言和推理组件,而不是最终事实来源。

上下文比提示词更重要

提示词告诉模型“要做什么”,上下文决定模型“依据什么做”。在工程任务里,上下文通常包括:

  • 目标和验收标准。
  • 相关源码、配置、测试、日志。
  • 项目规范和禁止事项。
  • 依赖版本和运行命令。
  • 工具返回结果。

有效上下文不等于塞满窗口。更好的方式是选择相关材料、压缩历史、隔离不同任务、把长期规则写入文档。

典型应用链路

知识库问答

流程是:用户提问 -> 检索相关文档 -> 把文档片段放进上下文 -> 模型基于片段回答。

关键点:

  • 检索召回要准,否则模型会基于错误材料回答。
  • 回答应标出依据位置,方便人工核对。
  • 没有检索到资料时,应明确说缺少依据。

代码助手

流程是:读取任务 -> 搜索相关文件 -> 形成修改计划 -> 改代码 -> 跑测试 -> 根据错误继续修。

关键点:

  • 模型写出的代码必须通过工具验证。
  • 大改动应拆成小步。
  • 高风险代码需要人工 review。

文档整理

流程是:读取材料 -> 提取结构 -> 压缩重复 -> 保留关键结论、限制和操作步骤。

关键点:

  • 不应把资料搜集过程写进正文。
  • 事实变化快的内容要写清版本或日期。
  • 摘要不能替代原文中的关键约束。

评估大模型应用

不要只看一次演示,要看稳定性:

维度需要观察的问题
正确性是否基于给定资料回答,是否编造事实
一致性同类输入是否输出稳定格式和口径
可控性能否拒绝越权请求,能否遵守边界
可验证性输出能否被工具、测试或人工抽检验证
成本上下文长度、调用次数、延迟是否可接受
安全是否泄露敏感数据,是否执行危险动作

总结

大语言模型的核心能力是基于上下文生成有用内容。它的价值来自语言理解、模式迁移和生成能力;风险也来自生成机制本身。可靠使用大模型,需要把上下文、检索、工具、评估和权限一起设计,而不是只调提示词。

别急,先让缓存热一下。