语音识别

语音识别 ASR 把语音信号转换成文本。它不是简单“声音转文字”，而是在噪声、口音、语速、领域词和上下文约束之间做最可能路径搜索。

ASR 解码与约束

ASR 的输入和输出

ASR 输入通常是经过前处理后的单声道语音，也可能是多麦增强后的目标语音。输出不只有文本，还包括时间戳、置信度、中间结果、最终结果、说话人信息和后处理结果。

输出	作用
中间文本	流式展示，用户能看到识别正在进行
最终文本	端点结束后的稳定结果，适合触发业务
置信度	判断是否需要追问、确认或拒绝执行
时间戳	做字幕、会议纪要、质检定位
分词和标点	提高可读性，帮助后续语义理解
文本规整	把口语数字、日期、金额转成业务格式

传统结构与端到端结构

ASR 的实现路线很多，但工程上可以按两类理解。

路线	结构	优点	风险
传统混合式	声学模型、发音词典、语言模型、解码器分开	可控性强，热词和词表约束清晰	系统复杂，维护成本高
端到端	模型直接从特征到文字或子词	架构简洁，效果强，适合大数据训练	热词、低资源领域、可解释性更难

现代系统常把两者结合：底层用端到端模型，工程层仍然保留热词、领域词表、标点、数字规整和业务后处理。

特征提取

模型不会直接“听懂波形”，通常先把波形变成频谱特征。常见特征包括梅尔频谱、Filter Bank、MFCC 或模型内部学习到的表示。

可以把特征提取理解成：把一段声音拆成“不同时间、不同频率上的能量图”。元音、辅音、噪声和混响在这张图上有不同形态，模型就是从这些形态中判断文字。

特征问题	后果
采样率不匹配	高频缺失或模型输入分布变化
过度降噪	辅音和字头被削弱
混响严重	音节边界拖尾，词边界模糊
压缩损伤	高频细节和瞬态信息丢失

声学模型

声学模型判断一小段声音更像哪些音素、拼音、字、子词或 token。它关注的是“声音证据”。例如“打开客厅空调”里，声学模型会从连续频谱中找出接近这些发音的片段。

声学模型容易被这些因素影响：

噪声压过辅音。
方言口音和训练数据差异大。
儿童声、老人声、病嗓和麦克风距离变化。
前处理让语音变形。
多人同时说话。

解码器和语言约束

解码器负责把声学模型给出的候选拼成最可能的文本。它不只看“每一帧最像什么”，还要看整句话是否合理。

例如声学上相近的候选可能有多条：

候选	为什么会混淆
客厅空调	业务上下文里有这个设备名
客听空调	局部发音可能相近，但词序不自然
客厅空套	声学片段可能接近，但语言概率低

语言模型、热词和业务上下文会把更合理的路径推高。这个机制能提升领域词识别，也可能带来“过度纠正”：热词权重太强时，普通句子会被误拉成业务词。

流式识别

流式 ASR 边听边输出，适合实时字幕和语音助手。它的难点是模型在还没听完整句话时，只能基于当前上下文猜测，因此中间结果会修正。

问题	处理方式
中间结果抖动	UI 区分临时文本和最终文本
句尾等待过长	优化 VAD 结束点和流式解码策略
过早触发业务	关键操作等最终文本或高置信结果
长句上下文不足	使用更大上下文窗口或非流式二次修正

热词与上下文

热词不是简单替换，而是给特定词更高概率。它适合联系人、设备名、商品型号、地名、业务术语。

热词策略	适用
静态热词	固定业务术语，如“免赔额、续保、工单号”
动态热词	用户联系人、家庭设备名、当前页面商品
场景热词	车载导航、智能家居、客服质检按场景切换
低置信确认	热词命中但置信度低时让用户确认

热词列表要精简。过多热词会扩大搜索空间，增加误识别和延迟。

标点和文本规整

ASR 输出需要经过文本后处理才能进入业务系统。

口语	业务需要
二零二六年五月十七号	日期格式
一百二十三块五	金额格式
幺三八零零一三八零零零	电话号码
打开 A B C 模式	英文缩写或设备模式

客服质检通常保留更多口语原貌，表单录入更重视结构化和规范化。两类场景不能共用同一套后处理策略。

端侧、云端和混合

方案	适合	主要代价
端侧 ASR	短命令、离线控制、隐私敏感	模型体积、算力和热词能力受限
云端 ASR	长文本、会议纪要、客服质检	网络、延迟、隐私和成本
混合 ASR	先端侧快速响应，再云端补强	结果融合和重复执行控制复杂

混合方案要明确谁能触发业务。端侧已经执行“打开灯”后，云端补充结果不能再次执行同一命令。

评估方法

指标	说明	注意
CER / WER	字或词级错误率	不能完全代表业务成功
意图准确率	指令是否被正确理解	更贴近语音助手体验
热词命中率	领域词是否识别正确	要同时看误命中
首字延迟	流式识别第一个结果出现时间	影响实时感
最终延迟	说完到最终文本稳定的时间	影响业务触发

ASR 评估要按噪声、距离、口音、设备型号和业务场景分组。平均 WER 很容易掩盖某一类设备或某个噪声场景的明显退化。

常见问题

现象	优先排查
开头漏字	唤醒后缓存、VAD 起点、ASR 启动延迟
结尾漏字	VAD 结束点、尾部静音、流式截断
专有名词错	热词、领域语料、后处理
噪声下错字多	SNR、NS 失真、训练数据覆盖
同音词错	语言上下文、业务状态、确认策略
长句后半段差	上下文窗口、说话人疲劳、非流式二次修正

总结

ASR 的效果来自“音频质量、声学模型、解码约束、热词、后处理、业务容错”的组合。排查识别问题时，先固定送入 ASR 的音频，再分别看声学错误、解码偏置和后处理错误。

语音识别 ​

ASR 的输入和输出 ​

传统结构与端到端结构 ​

特征提取 ​

声学模型 ​

解码器和语言约束 ​

流式识别 ​

热词与上下文 ​

标点和文本规整 ​

端侧、云端和混合 ​

评估方法 ​

常见问题 ​

总结 ​