Skip to content

声学概览

声学研究声音的产生、传播、采集、处理、播放和感知。工程里的声学不只是一只麦克风或一个扬声器,而是一条从物理空间到数字算法再回到用户听感的完整链路。

在智能音箱、会议终端、车载座舱、耳机、机器人、语音遥控器、客服系统里,声学问题通常表现为“听不清、唤不醒、识别错、播放刺耳、回声大、噪声重、远场效果差”。这些问题不能只靠模型解决,也不能只靠结构件解决,需要把声场、硬件、信号处理和语音算法放在一条链路里看。

声学系统结构图

如何阅读本专题

模块解决的问题重点内容详细说明
声学结构声音从哪里来、经过什么结构、最后如何被采集或播放声源、声场、腔体、麦克风阵列、扬声器、结构件声学结构
声音与信号基础如何把连续声音变成可计算的数据频率、声压级、采样率、位深、频谱、时域与频域声音与信号基础
采集与播放链路麦克风和扬声器在系统里怎么接入Mic、ADC、DAC、Codec、I2S、PCM、Buffer、延迟采集与播放链路
降噪与前处理让后续算法拿到更干净、更稳定的语音AEC、NS、AGC、VAD、波束形成、去混响降噪与前处理
语音唤醒设备如何在低功耗和低误唤醒之间取平衡KWS、唤醒词、阈值、误唤醒、漏唤醒、声纹语音唤醒
语音识别如何把语音转成文本ASR、声学模型、语言模型、流式识别、热词、标点语音识别
语音合成如何把文本转成可听的语音TTS、声学特征、声码器、音色、韵律、流式合成语音合成
语音交互链路一个可对话设备如何串起各模块采集、前处理、唤醒、识别、理解、合成、播放语音交互链路
质量评估与排错如何定位声学效果差的根因SNR、ERLE、WER、MOS、延迟、日志、录音回放质量评估与排错
工程选型不同设备和场景如何取舍方案近场、远场、会议、车载、耳机、云端与端侧工程选型

一条典型语音链路

语音交互流水线

语音链路可以按输入、处理、理解、输出四段理解:

  1. 输入:麦克风把空气压力变化转成电信号,再经过 ADC 变成 PCM 数据。
  2. 处理:前处理模块压制回声、噪声和音量波动,必要时使用麦克风阵列增强目标方向。
  3. 理解:唤醒模块判断是否进入交互,ASR 把语音转成文本,NLU 或大模型理解意图。
  4. 输出:TTS 把文本转成音频,经过 DAC、功放和扬声器播放,播放参考信号再回送给 AEC。

核心边界

声学与音频

声学更关注声音在物理空间中的产生、传播和感知,音频更关注声音信号的采集、编码、传输、处理和播放。工程项目里两者经常交叠:麦克风开孔、喇叭腔体、回声路径属于声学问题;采样率、PCM、滤波、编码属于音频问题。

语音与普通音频

语音是音频的一类,但语音系统有更明确的任务目标:听清人说话、判断是否有人说话、识别文字、理解命令、合成回答。音乐播放更重视频响、失真、动态和主观听感;语音交互更重视 SNR、唤醒率、识别率、端到端延迟和复杂环境鲁棒性。

算法问题与结构问题

结构问题会直接改变算法输入。例如麦克风孔被遮挡、密封不良、喇叭漏音到麦克风、阵列间距不准,都会让算法拿到错误信号。算法能缓解噪声和回声,但无法完全补救错误的声学结构。

常见场景怎么切入

场景优先关注典型风险
智能音箱远场唤醒麦克风阵列、AEC、波束形成、唤醒阈值播放音乐时唤不醒、远距离漏唤醒
会议终端多人拾音、回声消除、混响控制、双讲对方听到回声、近端说话被压掉
车载语音路噪、风噪、座舱反射、多人位置高速行驶识别率下降、误唤醒
耳机通话近嘴拾音、风噪、骨传导、低功耗户外风噪大、语音发闷
语音遥控器单麦近场、按键触发、低成本拾音距离短、电量受限
客服录音质检通话录音、双声道分离、ASR 后处理采样率低、压缩损伤、口音和噪声

先看哪些指标

指标说明用途
SNR语音与噪声的能量比判断环境噪声是否压过人声
THD+N总谐波失真加噪声判断播放或采集链路是否失真
ERLE回声消除前后的回声衰减量评估 AEC 是否有效
WER词错误率评估 ASR 识别效果
FAR / FRR误唤醒率 / 漏唤醒率评估唤醒模型和阈值
MOS主观听感评分评估通话、合成或播放体验
端到端延迟从说话到系统响应的总耗时评估实时交互体验

总结

声学专题按“结构和声场 -> 采集播放 -> 前处理 -> 唤醒识别合成 -> 评估排错 -> 工程选型”展开。排查具体问题时,先确认物理链路和录音数据是否可信,再分析算法和模型效果。

别急,先让缓存热一下。