Skip to content

语音识别

语音识别 ASR 把语音信号转换成文本。它不是简单“声音转文字”,而是在噪声、口音、语速、领域词和上下文约束之间做最可能路径搜索。

ASR 解码与约束

ASR 的输入和输出

ASR 输入通常是经过前处理后的单声道语音,也可能是多麦增强后的目标语音。输出不只有文本,还包括时间戳、置信度、中间结果、最终结果、说话人信息和后处理结果。

输出作用
中间文本流式展示,用户能看到识别正在进行
最终文本端点结束后的稳定结果,适合触发业务
置信度判断是否需要追问、确认或拒绝执行
时间戳做字幕、会议纪要、质检定位
分词和标点提高可读性,帮助后续语义理解
文本规整把口语数字、日期、金额转成业务格式

传统结构与端到端结构

ASR 的实现路线很多,但工程上可以按两类理解。

路线结构优点风险
传统混合式声学模型、发音词典、语言模型、解码器分开可控性强,热词和词表约束清晰系统复杂,维护成本高
端到端模型直接从特征到文字或子词架构简洁,效果强,适合大数据训练热词、低资源领域、可解释性更难

现代系统常把两者结合:底层用端到端模型,工程层仍然保留热词、领域词表、标点、数字规整和业务后处理。

特征提取

模型不会直接“听懂波形”,通常先把波形变成频谱特征。常见特征包括梅尔频谱、Filter Bank、MFCC 或模型内部学习到的表示。

可以把特征提取理解成:把一段声音拆成“不同时间、不同频率上的能量图”。元音、辅音、噪声和混响在这张图上有不同形态,模型就是从这些形态中判断文字。

特征问题后果
采样率不匹配高频缺失或模型输入分布变化
过度降噪辅音和字头被削弱
混响严重音节边界拖尾,词边界模糊
压缩损伤高频细节和瞬态信息丢失

声学模型

声学模型判断一小段声音更像哪些音素、拼音、字、子词或 token。它关注的是“声音证据”。例如“打开客厅空调”里,声学模型会从连续频谱中找出接近这些发音的片段。

声学模型容易被这些因素影响:

  • 噪声压过辅音。
  • 方言口音和训练数据差异大。
  • 儿童声、老人声、病嗓和麦克风距离变化。
  • 前处理让语音变形。
  • 多人同时说话。

解码器和语言约束

解码器负责把声学模型给出的候选拼成最可能的文本。它不只看“每一帧最像什么”,还要看整句话是否合理。

例如声学上相近的候选可能有多条:

候选为什么会混淆
客厅空调业务上下文里有这个设备名
客听空调局部发音可能相近,但词序不自然
客厅空套声学片段可能接近,但语言概率低

语言模型、热词和业务上下文会把更合理的路径推高。这个机制能提升领域词识别,也可能带来“过度纠正”:热词权重太强时,普通句子会被误拉成业务词。

流式识别

流式 ASR 边听边输出,适合实时字幕和语音助手。它的难点是模型在还没听完整句话时,只能基于当前上下文猜测,因此中间结果会修正。

问题处理方式
中间结果抖动UI 区分临时文本和最终文本
句尾等待过长优化 VAD 结束点和流式解码策略
过早触发业务关键操作等最终文本或高置信结果
长句上下文不足使用更大上下文窗口或非流式二次修正

热词与上下文

热词不是简单替换,而是给特定词更高概率。它适合联系人、设备名、商品型号、地名、业务术语。

热词策略适用
静态热词固定业务术语,如“免赔额、续保、工单号”
动态热词用户联系人、家庭设备名、当前页面商品
场景热词车载导航、智能家居、客服质检按场景切换
低置信确认热词命中但置信度低时让用户确认

热词列表要精简。过多热词会扩大搜索空间,增加误识别和延迟。

标点和文本规整

ASR 输出需要经过文本后处理才能进入业务系统。

口语业务需要
二零二六年五月十七号日期格式
一百二十三块五金额格式
幺三八零零一三八零零零电话号码
打开 A B C 模式英文缩写或设备模式

客服质检通常保留更多口语原貌,表单录入更重视结构化和规范化。两类场景不能共用同一套后处理策略。

端侧、云端和混合

方案适合主要代价
端侧 ASR短命令、离线控制、隐私敏感模型体积、算力和热词能力受限
云端 ASR长文本、会议纪要、客服质检网络、延迟、隐私和成本
混合 ASR先端侧快速响应,再云端补强结果融合和重复执行控制复杂

混合方案要明确谁能触发业务。端侧已经执行“打开灯”后,云端补充结果不能再次执行同一命令。

评估方法

指标说明注意
CER / WER字或词级错误率不能完全代表业务成功
意图准确率指令是否被正确理解更贴近语音助手体验
热词命中率领域词是否识别正确要同时看误命中
首字延迟流式识别第一个结果出现时间影响实时感
最终延迟说完到最终文本稳定的时间影响业务触发

ASR 评估要按噪声、距离、口音、设备型号和业务场景分组。平均 WER 很容易掩盖某一类设备或某个噪声场景的明显退化。

常见问题

现象优先排查
开头漏字唤醒后缓存、VAD 起点、ASR 启动延迟
结尾漏字VAD 结束点、尾部静音、流式截断
专有名词错热词、领域语料、后处理
噪声下错字多SNR、NS 失真、训练数据覆盖
同音词错语言上下文、业务状态、确认策略
长句后半段差上下文窗口、说话人疲劳、非流式二次修正

总结

ASR 的效果来自“音频质量、声学模型、解码约束、热词、后处理、业务容错”的组合。排查识别问题时,先固定送入 ASR 的音频,再分别看声学错误、解码偏置和后处理错误。

别急,先让缓存热一下。