Skip to content

声音与信号基础

声音是介质中的压力波。音频工程把连续的声压变化采集成数字序列,再用数学方法分析、增强、压缩或合成。理解采样率、位深、频谱和分贝,是排查声学问题的基础。

声音从空气振动到数字采样

声音的基本量

概念含义工程关注点
频率每秒振动次数,单位 Hz决定音高和频段分布
振幅声压变化幅度决定响度和是否削顶
相位周期信号的位置关系影响阵列、滤波和回声抵消
波长声波一个周期的空间长度影响绕射、反射和阵列间距
声速声音在空气中传播速度室温空气中约 343 m/s

人耳可听范围通常写作 20 Hz 到 20 kHz,但语音信息主要集中在更窄的范围。元音能量偏低频,辅音和清晰度信息更多在中高频。

语音频段

频段对语音的影响常见问题
80 Hz 以下语音有效信息少,多为低频噪声和振动空调、风噪、手持摩擦
80 Hz ~ 300 Hz厚度和低频基音过强会闷,过弱会薄
300 Hz ~ 1 kHz元音和主体能量影响响度和自然度
1 kHz ~ 4 kHz清晰度和多数辅音衰减会导致识别率下降
4 kHz ~ 8 kHz齿音、细节、空气感过强会刺耳,过弱会不清楚
8 kHz 以上宽带语音细节和高频噪声受采样率、麦克风和编码限制

电话窄带语音通常只保留 300 Hz 到 3.4 kHz,宽带语音会扩展到 7 kHz 左右,超宽带和全带语音能保留更多高频细节。

分贝

分贝是对数单位,用于表达比例。声学中常见几种写法:

表达含义用途
dB SPL相对 20 µPa 的声压级描述环境声、扬声器声压
dBFS相对数字满幅的电平描述 PCM 是否接近削顶
dBA加权声压级更接近人耳对不同频段的敏感度
SNR信号与噪声比判断语音相对噪声是否足够突出

数字音频里,0 dBFS 是满幅上限,不能再高。录音峰值长期贴近 0 dBFS,通常意味着削顶风险;峰值过低则会牺牲有效动态范围。

采样率与位深

采样率决定数字音频能表示的最高频率。按照奈奎斯特定理,采样率至少要大于信号最高频率的两倍。

采样率常见用途说明
8 kHz窄带电话最高有效频率约 4 kHz
16 kHz语音识别、语音通话语音算法常用
24 kHz语音合成、宽带语音高频细节更好
44.1 kHz音乐、消费音频CD 标准
48 kHz视频、会议、专业音频工程系统常用

位深决定量化精度。可以把位深理解成“尺子的刻度密度”:刻度越密,越能细致记录声音幅度;刻度太粗,安静细节会被量化误差淹没。16 bit PCM 已能覆盖大多数语音场景,24 bit 更适合录音、后期和需要更高动态范围的链路。

PCM 与常见格式

PCM 是最常见的未压缩音频表示方式。每个采样点记录一个数字幅度,多声道按一定顺序交织或分离存储。

常见参数可以按“每秒取多少次、每次记多细、有几只耳朵、每次处理多长一小段”来理解:

参数形象理解影响
采样率每秒给声波拍多少张照片决定能记录到多高的频率
位深每个采样点的刻度有多细决定动态范围和量化噪声
声道数同时有几只麦克风或几路播放决定空间信息和数据量
帧长算法一次看多长的一小段声音影响延迟、稳定性和实时性

16 kHz、16 bit、单声道语音可以理解为:每秒取 16000 个点,每个点用 16 bit 记录幅度,只记录一路声音。这个数据量对语音识别足够轻,但对音乐高频细节不够完整。

时域与频域

时域看波形随时间的变化,适合观察削顶、静音、爆音、延迟和端点。频域看能量在不同频率上的分布,适合观察噪声、频响、啸叫和滤波效果。

常用分析方法:

  • 波形图:看幅度、静音、削顶、突发噪声。
  • 频谱图:看某一段音频的频率分布。
  • 语谱图:看频率随时间变化,语音和噪声差异更直观。
  • 互相关:估计两路信号之间的延迟。
  • FFT:把时域信号转换到频域。

常见数字处理

处理作用注意点
重采样改变采样率低质量重采样会带来混叠和失真
高通滤波去除低频噪声截止频率过高会削弱语音厚度
低通滤波去除高频噪声截止频率过低会影响清晰度
均衡 EQ调整不同频段增益不应替代结构和硬件问题修复
动态范围压缩控制响度波动过度压缩会让声音疲劳
限幅防止削顶长期触发说明前级增益设计不合理

排查入口

现象先看什么
录音很小PCM 峰值、RMS、电路增益、麦克风灵敏度
录音破音波形是否削顶、模拟前端是否饱和
识别漏字语谱图中辅音是否被噪声或滤波削弱
声音发闷2 kHz 以上频段是否明显衰减
背景噪声大静音段噪声谱、SNR、地噪或电源噪声
阵列定位不准各路相位、延迟、采样同步

总结

声学问题最终都会落到可观测信号上。先固定采样率、位深、声道顺序和录音链路,再用波形、频谱和指标判断问题在物理结构、模拟链路、数字处理还是模型算法。

别急,先让缓存热一下。