工程选型

声学方案选型要从产品目标倒推，而不是先选算法或硬件。拾音距离、噪声环境、是否播放、是否离线、功耗、成本、隐私和延迟都会改变方案。

选型维度

维度	需要确认的问题
距离	近场、桌面、房间远场还是车内多座位
环境	安静、办公室、厨房、车内、户外、会议室
播放	是否边播放边拾音，是否需要全双工
算力	是否有 DSP、NPU、主 CPU 预算
网络	是否可依赖云端，弱网时如何降级
功耗	是否电池供电，唤醒是否常开
隐私	原始音频是否允许上传和保存
成本	麦克风数量、Codec、功放、结构空间

场景方案

近场语音遥控器

特点：

用户主动按键或近距离说话。
单麦即可覆盖多数需求。
功耗和成本敏感。

建议：

单 MEMS 麦克风。
16 kHz 采样率即可满足命令识别。
按键触发优先，减少常开唤醒功耗。
使用轻量 NS、AGC、VAD。
ASR 可端侧短命令或云端识别。

智能音箱

特点：

房间远场。
设备自己会播放音乐和 TTS。
用户期望自然唤醒和打断。

建议：

4 到 6 麦环形阵列或按结构选择线性阵列。
强化 AEC、BF、NS 和唤醒。
播放参考必须接入前处理。
做不同音量下的唤醒和双讲测试。
常用命令可端侧，开放问答走云端。

会议终端

特点：

多人、多方向、长时间通话。
对回声、双讲、混响很敏感。
更重视对方听感和稳定性。

建议：

多麦阵列，优先保证覆盖范围和通道同步。
AEC、双讲保护、AGC 和去混响是重点。
输出给远端前要做响度一致性控制。
保留远端参考、近端多麦和发送端音频用于排查。

车载语音

特点：

路噪、风噪、空调噪声随速度变化。
车内反射复杂，不同座位差异明显。
需要区分主驾、副驾和后排。

建议：

结合座舱结构布置多麦。
针对车速、空调档位、开窗做噪声测试。
使用座位方向估计或分区拾音。
常用车控命令优先端侧，保证弱网可用。

耳机和可穿戴

特点：

麦克风离嘴近，但风噪和佩戴变化大。
算力、电池和体积极其受限。
通话体验优先。

建议：

多麦通话降噪，必要时结合骨传导或加速度传感器。
做风噪检测和风噪场景适配。
控制模型规模和运行功耗。
蓝牙编码和系统通话模式会限制音质，需要端到端测试。

端侧、云端与私有化

方案	适合	不适合
端侧	唤醒、短命令、隐私敏感、弱网	长文本、高准确率开放识别
公有云	快速接入、长语音转写、模型持续更新	强隐私、离线、低延迟硬约束
私有化	企业合规、客服质检、内网数据	小规模低成本项目
混合	既要低延迟又要高准确率	团队无法维护复杂链路

端云混合要明确结果优先级。例如端侧先执行“打开灯”，云端返回更完整文本后不能重复执行。

成本取舍

降成本做法	代价
减少麦克风数量	远场、定位和抗噪能力下降
去掉独立 Codec	模拟链路和驱动适配压力增加
小喇叭大音量播放	失真上升，AEC 变差
只用云端识别	弱网和隐私问题增加
不做回放测试集	版本迭代不可控

成本优化要保留底线：录音不能削顶，声道不能乱，参考信号不能缺，关键场景要能复现。

立项检查清单

目标拾音距离和角度范围是否明确。
典型噪声和播放场景是否列出。
是否需要全双工和打断。
是否需要离线唤醒、离线控制或端侧 ASR。
麦克风数量、位置和结构空间是否已确认。
扬声器声压、腔体和回声路径是否评估。
是否有可回放测试集和指标口径。
原始音频采集、上传和保存是否合规。
线上日志是否能区分设备、版本和场景。

总结

声学工程选型应先定义场景和指标，再选择麦克风、结构、前处理、唤醒、ASR、TTS 和端云架构。对语音产品来说，稳定可复现的测试体系和可诊断数据，和模型本身一样重要。

工程选型 ​

选型维度 ​

场景方案 ​

近场语音遥控器 ​

智能音箱 ​

会议终端 ​

车载语音 ​

耳机和可穿戴 ​

端侧、云端与私有化 ​

成本取舍 ​

立项检查清单 ​

总结 ​