Skip to content

质量评估与排错

声学系统的评估不能只靠现场听感。听感容易受音量、环境、说话人和预期影响。稳定的排错流程应同时保留录音、指标、日志和可回放测试集。

评估对象

对象关注指标
结构与硬件频响、灵敏度、一致性、THD+N、底噪
采集链路峰值、RMS、削顶、丢帧、声道顺序
AECERLE、双讲保护、残留回声
降噪SNR 改善、语音失真、残留噪声
唤醒唤醒率、误唤醒率、漏唤醒率、延迟
ASRWER、CER、意图准确率、热词命中率
TTSMOS、读错率、首包延迟、播放稳定性
交互链路端到端延迟、打断成功率、失败恢复

必备录音

排查时至少保留四类音频:

  1. 原始多路麦克风音频。
  2. 播放参考音频。
  3. 前处理输出音频。
  4. 送入唤醒或 ASR 的最终音频。

如果只保存最终 ASR 文本,很多问题无法复盘。原始多路录音可以验证结构、声道、同步和阵列算法;播放参考可以验证 AEC;前处理输出可以判断算法是否过度处理。

常用指标

SNR

SNR 表示语音与噪声的能量比。SNR 低时,唤醒和识别都会变差。

ERLE

ERLE 用于衡量 AEC 对回声的衰减效果。它不能单独代表通话质量,因为 AEC 也可能把近端人声误消掉。

WER / CER

WER 是词错误率,CER 是字错误率。中文短命令中,CER 更直观;英文或分词明确的场景常用 WER。

MOS

MOS 是主观听感评分,适合评估通话、TTS 和播放体验。需要多名听评人员、统一音量和固定样本,否则结果波动很大。

测试环境

环境用途
消声室测硬件频响、灵敏度、方向性
混响室或普通房间测真实室内反射
噪声实验环境播放车噪、餐厅、办公室、音乐等背景声
真实现场验证用户实际体验
回放系统固定输入,比较不同算法版本

实验室结果好不代表现场一定好。实验室用于定位和对比,现场用于验证覆盖面。

排错流程

声学问题排查路径

1. 固定复现条件

记录设备型号、固件版本、算法版本、采样率、音量、距离、角度、噪声类型和测试语料。声学问题对环境很敏感,不固定条件很难比较。

2. 先看波形

检查是否存在:

  • 全 0 或全噪声。
  • 削顶。
  • 明显丢帧或断续。
  • 声道错位。
  • 静音段底噪异常。
  • 播放参考和麦克风信号延迟异常。

3. 再看频谱

用语谱图观察:

  • 语音频段是否完整。
  • 是否有固定频率电噪声。
  • 风噪或低频振动是否过强。
  • 降噪后是否产生音乐噪声。
  • 混响拖尾是否明显。

4. 分模块旁路

逐个关闭或替换模块:

  • 关闭 NS,看识别是否反而更好。
  • 关闭 AGC,看音量波动是否来自增益控制。
  • 关闭 BF,看阵列方向是否错误。
  • 替换 AEC 参考,看回声是否消失。

旁路测试能快速区分“输入坏了”和“处理坏了”。

5. 回放验证

把同一批录音喂给不同算法版本,记录指标和输出。回放测试能避免现场变量干扰,是算法迭代的基础。

典型问题定位

问题首查项下一步
唤醒率低原始录音 SNR、唤醒置信度查前处理输出和阈值
误唤醒高误唤醒音频、相似词补负样本、二级确认
ASR 漏字VAD 起止点、前置缓存调端点和缓存
回声明显播放参考、ERLE、延迟查混音路径和扬声器失真
降噪后声音怪NS 输出语谱图降低强度或换模型
TTS 播放破音PCM 峰值、功放、扬声器限幅和音量策略

上线监控

线上不能频繁上传原始音频时,仍应监控摘要指标:

  • 唤醒次数、误唤醒反馈、唤醒置信度分布。
  • ASR 失败率、重说率、纠错率。
  • 端到端延迟分位数。
  • 播放打断率。
  • 设备音量、噪声等级、固件版本。
  • 关键模块错误码和超时。

版本发布后要按设备型号和场景分组看指标,避免平均值掩盖某一类设备的退化。

总结

声学排错要从可复现样本开始,沿“原始信号 -> 前处理 -> 模型输出 -> 业务结果”逐层定位。没有录音和分段指标时,声学问题很容易变成凭感觉调参。

别急,先让缓存热一下。