Skip to content

工程选型

声学方案选型要从产品目标倒推,而不是先选算法或硬件。拾音距离、噪声环境、是否播放、是否离线、功耗、成本、隐私和延迟都会改变方案。

选型维度

维度需要确认的问题
距离近场、桌面、房间远场还是车内多座位
环境安静、办公室、厨房、车内、户外、会议室
播放是否边播放边拾音,是否需要全双工
算力是否有 DSP、NPU、主 CPU 预算
网络是否可依赖云端,弱网时如何降级
功耗是否电池供电,唤醒是否常开
隐私原始音频是否允许上传和保存
成本麦克风数量、Codec、功放、结构空间

场景方案

近场语音遥控器

特点:

  • 用户主动按键或近距离说话。
  • 单麦即可覆盖多数需求。
  • 功耗和成本敏感。

建议:

  • 单 MEMS 麦克风。
  • 16 kHz 采样率即可满足命令识别。
  • 按键触发优先,减少常开唤醒功耗。
  • 使用轻量 NS、AGC、VAD。
  • ASR 可端侧短命令或云端识别。

智能音箱

特点:

  • 房间远场。
  • 设备自己会播放音乐和 TTS。
  • 用户期望自然唤醒和打断。

建议:

  • 4 到 6 麦环形阵列或按结构选择线性阵列。
  • 强化 AEC、BF、NS 和唤醒。
  • 播放参考必须接入前处理。
  • 做不同音量下的唤醒和双讲测试。
  • 常用命令可端侧,开放问答走云端。

会议终端

特点:

  • 多人、多方向、长时间通话。
  • 对回声、双讲、混响很敏感。
  • 更重视对方听感和稳定性。

建议:

  • 多麦阵列,优先保证覆盖范围和通道同步。
  • AEC、双讲保护、AGC 和去混响是重点。
  • 输出给远端前要做响度一致性控制。
  • 保留远端参考、近端多麦和发送端音频用于排查。

车载语音

特点:

  • 路噪、风噪、空调噪声随速度变化。
  • 车内反射复杂,不同座位差异明显。
  • 需要区分主驾、副驾和后排。

建议:

  • 结合座舱结构布置多麦。
  • 针对车速、空调档位、开窗做噪声测试。
  • 使用座位方向估计或分区拾音。
  • 常用车控命令优先端侧,保证弱网可用。

耳机和可穿戴

特点:

  • 麦克风离嘴近,但风噪和佩戴变化大。
  • 算力、电池和体积极其受限。
  • 通话体验优先。

建议:

  • 多麦通话降噪,必要时结合骨传导或加速度传感器。
  • 做风噪检测和风噪场景适配。
  • 控制模型规模和运行功耗。
  • 蓝牙编码和系统通话模式会限制音质,需要端到端测试。

端侧、云端与私有化

方案适合不适合
端侧唤醒、短命令、隐私敏感、弱网长文本、高准确率开放识别
公有云快速接入、长语音转写、模型持续更新强隐私、离线、低延迟硬约束
私有化企业合规、客服质检、内网数据小规模低成本项目
混合既要低延迟又要高准确率团队无法维护复杂链路

端云混合要明确结果优先级。例如端侧先执行“打开灯”,云端返回更完整文本后不能重复执行。

成本取舍

降成本做法代价
减少麦克风数量远场、定位和抗噪能力下降
去掉独立 Codec模拟链路和驱动适配压力增加
小喇叭大音量播放失真上升,AEC 变差
只用云端识别弱网和隐私问题增加
不做回放测试集版本迭代不可控

成本优化要保留底线:录音不能削顶,声道不能乱,参考信号不能缺,关键场景要能复现。

立项检查清单

  • 目标拾音距离和角度范围是否明确。
  • 典型噪声和播放场景是否列出。
  • 是否需要全双工和打断。
  • 是否需要离线唤醒、离线控制或端侧 ASR。
  • 麦克风数量、位置和结构空间是否已确认。
  • 扬声器声压、腔体和回声路径是否评估。
  • 是否有可回放测试集和指标口径。
  • 原始音频采集、上传和保存是否合规。
  • 线上日志是否能区分设备、版本和场景。

总结

声学工程选型应先定义场景和指标,再选择麦克风、结构、前处理、唤醒、ASR、TTS 和端云架构。对语音产品来说,稳定可复现的测试体系和可诊断数据,和模型本身一样重要。

别急,先让缓存热一下。