声音与信号基础

声音是介质中的压力波。音频工程把连续的声压变化采集成数字序列，再用数学方法分析、增强、压缩或合成。理解采样率、位深、频谱和分贝，是排查声学问题的基础。

声音从空气振动到数字采样

声音的基本量

概念	含义	工程关注点
频率	每秒振动次数，单位 Hz	决定音高和频段分布
振幅	声压变化幅度	决定响度和是否削顶
相位	周期信号的位置关系	影响阵列、滤波和回声抵消
波长	声波一个周期的空间长度	影响绕射、反射和阵列间距
声速	声音在空气中传播速度	室温空气中约 343 m/s

人耳可听范围通常写作 20 Hz 到 20 kHz，但语音信息主要集中在更窄的范围。元音能量偏低频，辅音和清晰度信息更多在中高频。

语音频段

频段	对语音的影响	常见问题
80 Hz 以下	语音有效信息少，多为低频噪声和振动	空调、风噪、手持摩擦
80 Hz ~ 300 Hz	厚度和低频基音	过强会闷，过弱会薄
300 Hz ~ 1 kHz	元音和主体能量	影响响度和自然度
1 kHz ~ 4 kHz	清晰度和多数辅音	衰减会导致识别率下降
4 kHz ~ 8 kHz	齿音、细节、空气感	过强会刺耳，过弱会不清楚
8 kHz 以上	宽带语音细节和高频噪声	受采样率、麦克风和编码限制

电话窄带语音通常只保留 300 Hz 到 3.4 kHz，宽带语音会扩展到 7 kHz 左右，超宽带和全带语音能保留更多高频细节。

分贝

分贝是对数单位，用于表达比例。声学中常见几种写法：

表达	含义	用途
dB SPL	相对 20 µPa 的声压级	描述环境声、扬声器声压
dBFS	相对数字满幅的电平	描述 PCM 是否接近削顶
dBA	加权声压级	更接近人耳对不同频段的敏感度
SNR	信号与噪声比	判断语音相对噪声是否足够突出

数字音频里，0 dBFS 是满幅上限，不能再高。录音峰值长期贴近 0 dBFS，通常意味着削顶风险；峰值过低则会牺牲有效动态范围。

采样率与位深

采样率决定数字音频能表示的最高频率。按照奈奎斯特定理，采样率至少要大于信号最高频率的两倍。

采样率	常见用途	说明
8 kHz	窄带电话	最高有效频率约 4 kHz
16 kHz	语音识别、语音通话	语音算法常用
24 kHz	语音合成、宽带语音	高频细节更好
44.1 kHz	音乐、消费音频	CD 标准
48 kHz	视频、会议、专业音频	工程系统常用

位深决定量化精度。可以把位深理解成“尺子的刻度密度”：刻度越密，越能细致记录声音幅度；刻度太粗，安静细节会被量化误差淹没。16 bit PCM 已能覆盖大多数语音场景，24 bit 更适合录音、后期和需要更高动态范围的链路。

PCM 与常见格式

PCM 是最常见的未压缩音频表示方式。每个采样点记录一个数字幅度，多声道按一定顺序交织或分离存储。

常见参数可以按“每秒取多少次、每次记多细、有几只耳朵、每次处理多长一小段”来理解：

参数	形象理解	影响
采样率	每秒给声波拍多少张照片	决定能记录到多高的频率
位深	每个采样点的刻度有多细	决定动态范围和量化噪声
声道数	同时有几只麦克风或几路播放	决定空间信息和数据量
帧长	算法一次看多长的一小段声音	影响延迟、稳定性和实时性

16 kHz、16 bit、单声道语音可以理解为：每秒取 16000 个点，每个点用 16 bit 记录幅度，只记录一路声音。这个数据量对语音识别足够轻，但对音乐高频细节不够完整。

时域与频域

时域看波形随时间的变化，适合观察削顶、静音、爆音、延迟和端点。频域看能量在不同频率上的分布，适合观察噪声、频响、啸叫和滤波效果。

常用分析方法：

波形图：看幅度、静音、削顶、突发噪声。
频谱图：看某一段音频的频率分布。
语谱图：看频率随时间变化，语音和噪声差异更直观。
互相关：估计两路信号之间的延迟。
FFT：把时域信号转换到频域。

常见数字处理

处理	作用	注意点
重采样	改变采样率	低质量重采样会带来混叠和失真
高通滤波	去除低频噪声	截止频率过高会削弱语音厚度
低通滤波	去除高频噪声	截止频率过低会影响清晰度
均衡 EQ	调整不同频段增益	不应替代结构和硬件问题修复
动态范围压缩	控制响度波动	过度压缩会让声音疲劳
限幅	防止削顶	长期触发说明前级增益设计不合理

排查入口

现象	先看什么
录音很小	PCM 峰值、RMS、电路增益、麦克风灵敏度
录音破音	波形是否削顶、模拟前端是否饱和
识别漏字	语谱图中辅音是否被噪声或滤波削弱
声音发闷	2 kHz 以上频段是否明显衰减
背景噪声大	静音段噪声谱、SNR、地噪或电源噪声
阵列定位不准	各路相位、延迟、采样同步

总结

声学问题最终都会落到可观测信号上。先固定采样率、位深、声道顺序和录音链路，再用波形、频谱和指标判断问题在物理结构、模拟链路、数字处理还是模型算法。

声音与信号基础 ​

声音的基本量 ​

语音频段 ​

分贝 ​

采样率与位深 ​

PCM 与常见格式 ​

时域与频域 ​

常见数字处理 ​

排查入口 ​

总结 ​