Appearance
工程选型
声学方案选型要从产品目标倒推,而不是先选算法或硬件。拾音距离、噪声环境、是否播放、是否离线、功耗、成本、隐私和延迟都会改变方案。
选型维度
| 维度 | 需要确认的问题 |
|---|---|
| 距离 | 近场、桌面、房间远场还是车内多座位 |
| 环境 | 安静、办公室、厨房、车内、户外、会议室 |
| 播放 | 是否边播放边拾音,是否需要全双工 |
| 算力 | 是否有 DSP、NPU、主 CPU 预算 |
| 网络 | 是否可依赖云端,弱网时如何降级 |
| 功耗 | 是否电池供电,唤醒是否常开 |
| 隐私 | 原始音频是否允许上传和保存 |
| 成本 | 麦克风数量、Codec、功放、结构空间 |
场景方案
近场语音遥控器
特点:
- 用户主动按键或近距离说话。
- 单麦即可覆盖多数需求。
- 功耗和成本敏感。
建议:
- 单 MEMS 麦克风。
- 16 kHz 采样率即可满足命令识别。
- 按键触发优先,减少常开唤醒功耗。
- 使用轻量 NS、AGC、VAD。
- ASR 可端侧短命令或云端识别。
智能音箱
特点:
- 房间远场。
- 设备自己会播放音乐和 TTS。
- 用户期望自然唤醒和打断。
建议:
- 4 到 6 麦环形阵列或按结构选择线性阵列。
- 强化 AEC、BF、NS 和唤醒。
- 播放参考必须接入前处理。
- 做不同音量下的唤醒和双讲测试。
- 常用命令可端侧,开放问答走云端。
会议终端
特点:
- 多人、多方向、长时间通话。
- 对回声、双讲、混响很敏感。
- 更重视对方听感和稳定性。
建议:
- 多麦阵列,优先保证覆盖范围和通道同步。
- AEC、双讲保护、AGC 和去混响是重点。
- 输出给远端前要做响度一致性控制。
- 保留远端参考、近端多麦和发送端音频用于排查。
车载语音
特点:
- 路噪、风噪、空调噪声随速度变化。
- 车内反射复杂,不同座位差异明显。
- 需要区分主驾、副驾和后排。
建议:
- 结合座舱结构布置多麦。
- 针对车速、空调档位、开窗做噪声测试。
- 使用座位方向估计或分区拾音。
- 常用车控命令优先端侧,保证弱网可用。
耳机和可穿戴
特点:
- 麦克风离嘴近,但风噪和佩戴变化大。
- 算力、电池和体积极其受限。
- 通话体验优先。
建议:
- 多麦通话降噪,必要时结合骨传导或加速度传感器。
- 做风噪检测和风噪场景适配。
- 控制模型规模和运行功耗。
- 蓝牙编码和系统通话模式会限制音质,需要端到端测试。
端侧、云端与私有化
| 方案 | 适合 | 不适合 |
|---|---|---|
| 端侧 | 唤醒、短命令、隐私敏感、弱网 | 长文本、高准确率开放识别 |
| 公有云 | 快速接入、长语音转写、模型持续更新 | 强隐私、离线、低延迟硬约束 |
| 私有化 | 企业合规、客服质检、内网数据 | 小规模低成本项目 |
| 混合 | 既要低延迟又要高准确率 | 团队无法维护复杂链路 |
端云混合要明确结果优先级。例如端侧先执行“打开灯”,云端返回更完整文本后不能重复执行。
成本取舍
| 降成本做法 | 代价 |
|---|---|
| 减少麦克风数量 | 远场、定位和抗噪能力下降 |
| 去掉独立 Codec | 模拟链路和驱动适配压力增加 |
| 小喇叭大音量播放 | 失真上升,AEC 变差 |
| 只用云端识别 | 弱网和隐私问题增加 |
| 不做回放测试集 | 版本迭代不可控 |
成本优化要保留底线:录音不能削顶,声道不能乱,参考信号不能缺,关键场景要能复现。
立项检查清单
- 目标拾音距离和角度范围是否明确。
- 典型噪声和播放场景是否列出。
- 是否需要全双工和打断。
- 是否需要离线唤醒、离线控制或端侧 ASR。
- 麦克风数量、位置和结构空间是否已确认。
- 扬声器声压、腔体和回声路径是否评估。
- 是否有可回放测试集和指标口径。
- 原始音频采集、上传和保存是否合规。
- 线上日志是否能区分设备、版本和场景。
总结
声学工程选型应先定义场景和指标,再选择麦克风、结构、前处理、唤醒、ASR、TTS 和端云架构。对语音产品来说,稳定可复现的测试体系和可诊断数据,和模型本身一样重要。
