Appearance
语音识别
语音识别 ASR 把语音信号转换成文本。它不是简单“声音转文字”,而是在噪声、口音、语速、领域词和上下文约束之间做最可能路径搜索。
ASR 的输入和输出
ASR 输入通常是经过前处理后的单声道语音,也可能是多麦增强后的目标语音。输出不只有文本,还包括时间戳、置信度、中间结果、最终结果、说话人信息和后处理结果。
| 输出 | 作用 |
|---|---|
| 中间文本 | 流式展示,用户能看到识别正在进行 |
| 最终文本 | 端点结束后的稳定结果,适合触发业务 |
| 置信度 | 判断是否需要追问、确认或拒绝执行 |
| 时间戳 | 做字幕、会议纪要、质检定位 |
| 分词和标点 | 提高可读性,帮助后续语义理解 |
| 文本规整 | 把口语数字、日期、金额转成业务格式 |
传统结构与端到端结构
ASR 的实现路线很多,但工程上可以按两类理解。
| 路线 | 结构 | 优点 | 风险 |
|---|---|---|---|
| 传统混合式 | 声学模型、发音词典、语言模型、解码器分开 | 可控性强,热词和词表约束清晰 | 系统复杂,维护成本高 |
| 端到端 | 模型直接从特征到文字或子词 | 架构简洁,效果强,适合大数据训练 | 热词、低资源领域、可解释性更难 |
现代系统常把两者结合:底层用端到端模型,工程层仍然保留热词、领域词表、标点、数字规整和业务后处理。
特征提取
模型不会直接“听懂波形”,通常先把波形变成频谱特征。常见特征包括梅尔频谱、Filter Bank、MFCC 或模型内部学习到的表示。
可以把特征提取理解成:把一段声音拆成“不同时间、不同频率上的能量图”。元音、辅音、噪声和混响在这张图上有不同形态,模型就是从这些形态中判断文字。
| 特征问题 | 后果 |
|---|---|
| 采样率不匹配 | 高频缺失或模型输入分布变化 |
| 过度降噪 | 辅音和字头被削弱 |
| 混响严重 | 音节边界拖尾,词边界模糊 |
| 压缩损伤 | 高频细节和瞬态信息丢失 |
声学模型
声学模型判断一小段声音更像哪些音素、拼音、字、子词或 token。它关注的是“声音证据”。例如“打开客厅空调”里,声学模型会从连续频谱中找出接近这些发音的片段。
声学模型容易被这些因素影响:
- 噪声压过辅音。
- 方言口音和训练数据差异大。
- 儿童声、老人声、病嗓和麦克风距离变化。
- 前处理让语音变形。
- 多人同时说话。
解码器和语言约束
解码器负责把声学模型给出的候选拼成最可能的文本。它不只看“每一帧最像什么”,还要看整句话是否合理。
例如声学上相近的候选可能有多条:
| 候选 | 为什么会混淆 |
|---|---|
| 客厅空调 | 业务上下文里有这个设备名 |
| 客听空调 | 局部发音可能相近,但词序不自然 |
| 客厅空套 | 声学片段可能接近,但语言概率低 |
语言模型、热词和业务上下文会把更合理的路径推高。这个机制能提升领域词识别,也可能带来“过度纠正”:热词权重太强时,普通句子会被误拉成业务词。
流式识别
流式 ASR 边听边输出,适合实时字幕和语音助手。它的难点是模型在还没听完整句话时,只能基于当前上下文猜测,因此中间结果会修正。
| 问题 | 处理方式 |
|---|---|
| 中间结果抖动 | UI 区分临时文本和最终文本 |
| 句尾等待过长 | 优化 VAD 结束点和流式解码策略 |
| 过早触发业务 | 关键操作等最终文本或高置信结果 |
| 长句上下文不足 | 使用更大上下文窗口或非流式二次修正 |
热词与上下文
热词不是简单替换,而是给特定词更高概率。它适合联系人、设备名、商品型号、地名、业务术语。
| 热词策略 | 适用 |
|---|---|
| 静态热词 | 固定业务术语,如“免赔额、续保、工单号” |
| 动态热词 | 用户联系人、家庭设备名、当前页面商品 |
| 场景热词 | 车载导航、智能家居、客服质检按场景切换 |
| 低置信确认 | 热词命中但置信度低时让用户确认 |
热词列表要精简。过多热词会扩大搜索空间,增加误识别和延迟。
标点和文本规整
ASR 输出需要经过文本后处理才能进入业务系统。
| 口语 | 业务需要 |
|---|---|
| 二零二六年五月十七号 | 日期格式 |
| 一百二十三块五 | 金额格式 |
| 幺三八零零一三八零零零 | 电话号码 |
| 打开 A B C 模式 | 英文缩写或设备模式 |
客服质检通常保留更多口语原貌,表单录入更重视结构化和规范化。两类场景不能共用同一套后处理策略。
端侧、云端和混合
| 方案 | 适合 | 主要代价 |
|---|---|---|
| 端侧 ASR | 短命令、离线控制、隐私敏感 | 模型体积、算力和热词能力受限 |
| 云端 ASR | 长文本、会议纪要、客服质检 | 网络、延迟、隐私和成本 |
| 混合 ASR | 先端侧快速响应,再云端补强 | 结果融合和重复执行控制复杂 |
混合方案要明确谁能触发业务。端侧已经执行“打开灯”后,云端补充结果不能再次执行同一命令。
评估方法
| 指标 | 说明 | 注意 |
|---|---|---|
| CER / WER | 字或词级错误率 | 不能完全代表业务成功 |
| 意图准确率 | 指令是否被正确理解 | 更贴近语音助手体验 |
| 热词命中率 | 领域词是否识别正确 | 要同时看误命中 |
| 首字延迟 | 流式识别第一个结果出现时间 | 影响实时感 |
| 最终延迟 | 说完到最终文本稳定的时间 | 影响业务触发 |
ASR 评估要按噪声、距离、口音、设备型号和业务场景分组。平均 WER 很容易掩盖某一类设备或某个噪声场景的明显退化。
常见问题
| 现象 | 优先排查 |
|---|---|
| 开头漏字 | 唤醒后缓存、VAD 起点、ASR 启动延迟 |
| 结尾漏字 | VAD 结束点、尾部静音、流式截断 |
| 专有名词错 | 热词、领域语料、后处理 |
| 噪声下错字多 | SNR、NS 失真、训练数据覆盖 |
| 同音词错 | 语言上下文、业务状态、确认策略 |
| 长句后半段差 | 上下文窗口、说话人疲劳、非流式二次修正 |
总结
ASR 的效果来自“音频质量、声学模型、解码约束、热词、后处理、业务容错”的组合。排查识别问题时,先固定送入 ASR 的音频,再分别看声学错误、解码偏置和后处理错误。
