Appearance
声学概览
声学研究声音的产生、传播、采集、处理、播放和感知。工程里的声学不只是一只麦克风或一个扬声器,而是一条从物理空间到数字算法再回到用户听感的完整链路。
在智能音箱、会议终端、车载座舱、耳机、机器人、语音遥控器、客服系统里,声学问题通常表现为“听不清、唤不醒、识别错、播放刺耳、回声大、噪声重、远场效果差”。这些问题不能只靠模型解决,也不能只靠结构件解决,需要把声场、硬件、信号处理和语音算法放在一条链路里看。
如何阅读本专题
| 模块 | 解决的问题 | 重点内容 | 详细说明 |
|---|---|---|---|
| 声学结构 | 声音从哪里来、经过什么结构、最后如何被采集或播放 | 声源、声场、腔体、麦克风阵列、扬声器、结构件 | 声学结构 |
| 声音与信号基础 | 如何把连续声音变成可计算的数据 | 频率、声压级、采样率、位深、频谱、时域与频域 | 声音与信号基础 |
| 采集与播放链路 | 麦克风和扬声器在系统里怎么接入 | Mic、ADC、DAC、Codec、I2S、PCM、Buffer、延迟 | 采集与播放链路 |
| 降噪与前处理 | 让后续算法拿到更干净、更稳定的语音 | AEC、NS、AGC、VAD、波束形成、去混响 | 降噪与前处理 |
| 语音唤醒 | 设备如何在低功耗和低误唤醒之间取平衡 | KWS、唤醒词、阈值、误唤醒、漏唤醒、声纹 | 语音唤醒 |
| 语音识别 | 如何把语音转成文本 | ASR、声学模型、语言模型、流式识别、热词、标点 | 语音识别 |
| 语音合成 | 如何把文本转成可听的语音 | TTS、声学特征、声码器、音色、韵律、流式合成 | 语音合成 |
| 语音交互链路 | 一个可对话设备如何串起各模块 | 采集、前处理、唤醒、识别、理解、合成、播放 | 语音交互链路 |
| 质量评估与排错 | 如何定位声学效果差的根因 | SNR、ERLE、WER、MOS、延迟、日志、录音回放 | 质量评估与排错 |
| 工程选型 | 不同设备和场景如何取舍方案 | 近场、远场、会议、车载、耳机、云端与端侧 | 工程选型 |
一条典型语音链路
语音链路可以按输入、处理、理解、输出四段理解:
- 输入:麦克风把空气压力变化转成电信号,再经过 ADC 变成 PCM 数据。
- 处理:前处理模块压制回声、噪声和音量波动,必要时使用麦克风阵列增强目标方向。
- 理解:唤醒模块判断是否进入交互,ASR 把语音转成文本,NLU 或大模型理解意图。
- 输出:TTS 把文本转成音频,经过 DAC、功放和扬声器播放,播放参考信号再回送给 AEC。
核心边界
声学与音频
声学更关注声音在物理空间中的产生、传播和感知,音频更关注声音信号的采集、编码、传输、处理和播放。工程项目里两者经常交叠:麦克风开孔、喇叭腔体、回声路径属于声学问题;采样率、PCM、滤波、编码属于音频问题。
语音与普通音频
语音是音频的一类,但语音系统有更明确的任务目标:听清人说话、判断是否有人说话、识别文字、理解命令、合成回答。音乐播放更重视频响、失真、动态和主观听感;语音交互更重视 SNR、唤醒率、识别率、端到端延迟和复杂环境鲁棒性。
算法问题与结构问题
结构问题会直接改变算法输入。例如麦克风孔被遮挡、密封不良、喇叭漏音到麦克风、阵列间距不准,都会让算法拿到错误信号。算法能缓解噪声和回声,但无法完全补救错误的声学结构。
常见场景怎么切入
| 场景 | 优先关注 | 典型风险 |
|---|---|---|
| 智能音箱远场唤醒 | 麦克风阵列、AEC、波束形成、唤醒阈值 | 播放音乐时唤不醒、远距离漏唤醒 |
| 会议终端 | 多人拾音、回声消除、混响控制、双讲 | 对方听到回声、近端说话被压掉 |
| 车载语音 | 路噪、风噪、座舱反射、多人位置 | 高速行驶识别率下降、误唤醒 |
| 耳机通话 | 近嘴拾音、风噪、骨传导、低功耗 | 户外风噪大、语音发闷 |
| 语音遥控器 | 单麦近场、按键触发、低成本 | 拾音距离短、电量受限 |
| 客服录音质检 | 通话录音、双声道分离、ASR 后处理 | 采样率低、压缩损伤、口音和噪声 |
先看哪些指标
| 指标 | 说明 | 用途 |
|---|---|---|
| SNR | 语音与噪声的能量比 | 判断环境噪声是否压过人声 |
| THD+N | 总谐波失真加噪声 | 判断播放或采集链路是否失真 |
| ERLE | 回声消除前后的回声衰减量 | 评估 AEC 是否有效 |
| WER | 词错误率 | 评估 ASR 识别效果 |
| FAR / FRR | 误唤醒率 / 漏唤醒率 | 评估唤醒模型和阈值 |
| MOS | 主观听感评分 | 评估通话、合成或播放体验 |
| 端到端延迟 | 从说话到系统响应的总耗时 | 评估实时交互体验 |
总结
声学专题按“结构和声场 -> 采集播放 -> 前处理 -> 唤醒识别合成 -> 评估排错 -> 工程选型”展开。排查具体问题时,先确认物理链路和录音数据是否可信,再分析算法和模型效果。
