声学概览

声学研究声音的产生、传播、采集、处理、播放和感知。工程里的声学不只是一只麦克风或一个扬声器，而是一条从物理空间到数字算法再回到用户听感的完整链路。

在智能音箱、会议终端、车载座舱、耳机、机器人、语音遥控器、客服系统里，声学问题通常表现为“听不清、唤不醒、识别错、播放刺耳、回声大、噪声重、远场效果差”。这些问题不能只靠模型解决，也不能只靠结构件解决，需要把声场、硬件、信号处理和语音算法放在一条链路里看。

声学系统结构图

如何阅读本专题

模块	解决的问题	重点内容	详细说明
声学结构	声音从哪里来、经过什么结构、最后如何被采集或播放	声源、声场、腔体、麦克风阵列、扬声器、结构件	声学结构
声音与信号基础	如何把连续声音变成可计算的数据	频率、声压级、采样率、位深、频谱、时域与频域	声音与信号基础
采集与播放链路	麦克风和扬声器在系统里怎么接入	Mic、ADC、DAC、Codec、I2S、PCM、Buffer、延迟	采集与播放链路
降噪与前处理	让后续算法拿到更干净、更稳定的语音	AEC、NS、AGC、VAD、波束形成、去混响	降噪与前处理
语音唤醒	设备如何在低功耗和低误唤醒之间取平衡	KWS、唤醒词、阈值、误唤醒、漏唤醒、声纹	语音唤醒
语音识别	如何把语音转成文本	ASR、声学模型、语言模型、流式识别、热词、标点	语音识别
语音合成	如何把文本转成可听的语音	TTS、声学特征、声码器、音色、韵律、流式合成	语音合成
语音交互链路	一个可对话设备如何串起各模块	采集、前处理、唤醒、识别、理解、合成、播放	语音交互链路
质量评估与排错	如何定位声学效果差的根因	SNR、ERLE、WER、MOS、延迟、日志、录音回放	质量评估与排错
工程选型	不同设备和场景如何取舍方案	近场、远场、会议、车载、耳机、云端与端侧	工程选型

语音交互流水线

语音链路可以按输入、处理、理解、输出四段理解：

声学更关注声音在物理空间中的产生、传播和感知，音频更关注声音信号的采集、编码、传输、处理和播放。工程项目里两者经常交叠：麦克风开孔、喇叭腔体、回声路径属于声学问题；采样率、PCM、滤波、编码属于音频问题。

语音是音频的一类，但语音系统有更明确的任务目标：听清人说话、判断是否有人说话、识别文字、理解命令、合成回答。音乐播放更重视频响、失真、动态和主观听感；语音交互更重视 SNR、唤醒率、识别率、端到端延迟和复杂环境鲁棒性。

结构问题会直接改变算法输入。例如麦克风孔被遮挡、密封不良、喇叭漏音到麦克风、阵列间距不准，都会让算法拿到错误信号。算法能缓解噪声和回声，但无法完全补救错误的声学结构。

声学专题按“结构和声场 -> 采集播放 -> 前处理 -> 唤醒识别合成 -> 评估排错 -> 工程选型”展开。排查具体问题时，先确认物理链路和录音数据是否可信，再分析算法和模型效果。