Appearance
质量评估与排错
声学系统的评估不能只靠现场听感。听感容易受音量、环境、说话人和预期影响。稳定的排错流程应同时保留录音、指标、日志和可回放测试集。
评估对象
| 对象 | 关注指标 |
|---|---|
| 结构与硬件 | 频响、灵敏度、一致性、THD+N、底噪 |
| 采集链路 | 峰值、RMS、削顶、丢帧、声道顺序 |
| AEC | ERLE、双讲保护、残留回声 |
| 降噪 | SNR 改善、语音失真、残留噪声 |
| 唤醒 | 唤醒率、误唤醒率、漏唤醒率、延迟 |
| ASR | WER、CER、意图准确率、热词命中率 |
| TTS | MOS、读错率、首包延迟、播放稳定性 |
| 交互链路 | 端到端延迟、打断成功率、失败恢复 |
必备录音
排查时至少保留四类音频:
- 原始多路麦克风音频。
- 播放参考音频。
- 前处理输出音频。
- 送入唤醒或 ASR 的最终音频。
如果只保存最终 ASR 文本,很多问题无法复盘。原始多路录音可以验证结构、声道、同步和阵列算法;播放参考可以验证 AEC;前处理输出可以判断算法是否过度处理。
常用指标
SNR
SNR 表示语音与噪声的能量比。SNR 低时,唤醒和识别都会变差。
ERLE
ERLE 用于衡量 AEC 对回声的衰减效果。它不能单独代表通话质量,因为 AEC 也可能把近端人声误消掉。
WER / CER
WER 是词错误率,CER 是字错误率。中文短命令中,CER 更直观;英文或分词明确的场景常用 WER。
MOS
MOS 是主观听感评分,适合评估通话、TTS 和播放体验。需要多名听评人员、统一音量和固定样本,否则结果波动很大。
测试环境
| 环境 | 用途 |
|---|---|
| 消声室 | 测硬件频响、灵敏度、方向性 |
| 混响室或普通房间 | 测真实室内反射 |
| 噪声实验环境 | 播放车噪、餐厅、办公室、音乐等背景声 |
| 真实现场 | 验证用户实际体验 |
| 回放系统 | 固定输入,比较不同算法版本 |
实验室结果好不代表现场一定好。实验室用于定位和对比,现场用于验证覆盖面。
排错流程
1. 固定复现条件
记录设备型号、固件版本、算法版本、采样率、音量、距离、角度、噪声类型和测试语料。声学问题对环境很敏感,不固定条件很难比较。
2. 先看波形
检查是否存在:
- 全 0 或全噪声。
- 削顶。
- 明显丢帧或断续。
- 声道错位。
- 静音段底噪异常。
- 播放参考和麦克风信号延迟异常。
3. 再看频谱
用语谱图观察:
- 语音频段是否完整。
- 是否有固定频率电噪声。
- 风噪或低频振动是否过强。
- 降噪后是否产生音乐噪声。
- 混响拖尾是否明显。
4. 分模块旁路
逐个关闭或替换模块:
- 关闭 NS,看识别是否反而更好。
- 关闭 AGC,看音量波动是否来自增益控制。
- 关闭 BF,看阵列方向是否错误。
- 替换 AEC 参考,看回声是否消失。
旁路测试能快速区分“输入坏了”和“处理坏了”。
5. 回放验证
把同一批录音喂给不同算法版本,记录指标和输出。回放测试能避免现场变量干扰,是算法迭代的基础。
典型问题定位
| 问题 | 首查项 | 下一步 |
|---|---|---|
| 唤醒率低 | 原始录音 SNR、唤醒置信度 | 查前处理输出和阈值 |
| 误唤醒高 | 误唤醒音频、相似词 | 补负样本、二级确认 |
| ASR 漏字 | VAD 起止点、前置缓存 | 调端点和缓存 |
| 回声明显 | 播放参考、ERLE、延迟 | 查混音路径和扬声器失真 |
| 降噪后声音怪 | NS 输出语谱图 | 降低强度或换模型 |
| TTS 播放破音 | PCM 峰值、功放、扬声器 | 限幅和音量策略 |
上线监控
线上不能频繁上传原始音频时,仍应监控摘要指标:
- 唤醒次数、误唤醒反馈、唤醒置信度分布。
- ASR 失败率、重说率、纠错率。
- 端到端延迟分位数。
- 播放打断率。
- 设备音量、噪声等级、固件版本。
- 关键模块错误码和超时。
版本发布后要按设备型号和场景分组看指标,避免平均值掩盖某一类设备的退化。
总结
声学排错要从可复现样本开始,沿“原始信号 -> 前处理 -> 模型输出 -> 业务结果”逐层定位。没有录音和分段指标时,声学问题很容易变成凭感觉调参。
