质量评估与排错

声学系统的评估不能只靠现场听感。听感容易受音量、环境、说话人和预期影响。稳定的排错流程应同时保留录音、指标、日志和可回放测试集。

评估对象

对象	关注指标
结构与硬件	频响、灵敏度、一致性、THD+N、底噪
采集链路	峰值、RMS、削顶、丢帧、声道顺序
AEC	ERLE、双讲保护、残留回声
降噪	SNR 改善、语音失真、残留噪声
唤醒	唤醒率、误唤醒率、漏唤醒率、延迟
ASR	WER、CER、意图准确率、热词命中率
TTS	MOS、读错率、首包延迟、播放稳定性
交互链路	端到端延迟、打断成功率、失败恢复

必备录音

排查时至少保留四类音频：

原始多路麦克风音频。
播放参考音频。
前处理输出音频。
送入唤醒或 ASR 的最终音频。

如果只保存最终 ASR 文本，很多问题无法复盘。原始多路录音可以验证结构、声道、同步和阵列算法；播放参考可以验证 AEC；前处理输出可以判断算法是否过度处理。

常用指标

SNR

SNR 表示语音与噪声的能量比。SNR 低时，唤醒和识别都会变差。

ERLE

ERLE 用于衡量 AEC 对回声的衰减效果。它不能单独代表通话质量，因为 AEC 也可能把近端人声误消掉。

WER / CER

WER 是词错误率，CER 是字错误率。中文短命令中，CER 更直观；英文或分词明确的场景常用 WER。

MOS

MOS 是主观听感评分，适合评估通话、TTS 和播放体验。需要多名听评人员、统一音量和固定样本，否则结果波动很大。

测试环境

环境	用途
消声室	测硬件频响、灵敏度、方向性
混响室或普通房间	测真实室内反射
噪声实验环境	播放车噪、餐厅、办公室、音乐等背景声
真实现场	验证用户实际体验
回放系统	固定输入，比较不同算法版本

实验室结果好不代表现场一定好。实验室用于定位和对比，现场用于验证覆盖面。

排错流程

声学问题排查路径

1. 固定复现条件

记录设备型号、固件版本、算法版本、采样率、音量、距离、角度、噪声类型和测试语料。声学问题对环境很敏感，不固定条件很难比较。

2. 先看波形

检查是否存在：

全 0 或全噪声。
削顶。
明显丢帧或断续。
声道错位。
静音段底噪异常。
播放参考和麦克风信号延迟异常。

3. 再看频谱

用语谱图观察：

语音频段是否完整。
是否有固定频率电噪声。
风噪或低频振动是否过强。
降噪后是否产生音乐噪声。
混响拖尾是否明显。

4. 分模块旁路

逐个关闭或替换模块：

关闭 NS，看识别是否反而更好。
关闭 AGC，看音量波动是否来自增益控制。
关闭 BF，看阵列方向是否错误。
替换 AEC 参考，看回声是否消失。

旁路测试能快速区分“输入坏了”和“处理坏了”。

5. 回放验证

把同一批录音喂给不同算法版本，记录指标和输出。回放测试能避免现场变量干扰，是算法迭代的基础。

典型问题定位

问题	首查项	下一步
唤醒率低	原始录音 SNR、唤醒置信度	查前处理输出和阈值
误唤醒高	误唤醒音频、相似词	补负样本、二级确认
ASR 漏字	VAD 起止点、前置缓存	调端点和缓存
回声明显	播放参考、ERLE、延迟	查混音路径和扬声器失真
降噪后声音怪	NS 输出语谱图	降低强度或换模型
TTS 播放破音	PCM 峰值、功放、扬声器	限幅和音量策略

上线监控

线上不能频繁上传原始音频时，仍应监控摘要指标：

唤醒次数、误唤醒反馈、唤醒置信度分布。
ASR 失败率、重说率、纠错率。
端到端延迟分位数。
播放打断率。
设备音量、噪声等级、固件版本。
关键模块错误码和超时。

版本发布后要按设备型号和场景分组看指标，避免平均值掩盖某一类设备的退化。

总结

声学排错要从可复现样本开始，沿“原始信号 -> 前处理 -> 模型输出 -> 业务结果”逐层定位。没有录音和分段指标时，声学问题很容易变成凭感觉调参。

质量评估与排错 ​

评估对象 ​

必备录音 ​

常用指标 ​

SNR ​

ERLE ​

WER / CER ​

MOS ​

测试环境 ​

排错流程 ​

1. 固定复现条件 ​

2. 先看波形 ​

3. 再看频谱 ​

4. 分模块旁路 ​

5. 回放验证 ​

典型问题定位 ​

上线监控 ​

总结 ​