Appearance
声音与信号基础
声音是介质中的压力波。音频工程把连续的声压变化采集成数字序列,再用数学方法分析、增强、压缩或合成。理解采样率、位深、频谱和分贝,是排查声学问题的基础。
声音的基本量
| 概念 | 含义 | 工程关注点 |
|---|---|---|
| 频率 | 每秒振动次数,单位 Hz | 决定音高和频段分布 |
| 振幅 | 声压变化幅度 | 决定响度和是否削顶 |
| 相位 | 周期信号的位置关系 | 影响阵列、滤波和回声抵消 |
| 波长 | 声波一个周期的空间长度 | 影响绕射、反射和阵列间距 |
| 声速 | 声音在空气中传播速度 | 室温空气中约 343 m/s |
人耳可听范围通常写作 20 Hz 到 20 kHz,但语音信息主要集中在更窄的范围。元音能量偏低频,辅音和清晰度信息更多在中高频。
语音频段
| 频段 | 对语音的影响 | 常见问题 |
|---|---|---|
| 80 Hz 以下 | 语音有效信息少,多为低频噪声和振动 | 空调、风噪、手持摩擦 |
| 80 Hz ~ 300 Hz | 厚度和低频基音 | 过强会闷,过弱会薄 |
| 300 Hz ~ 1 kHz | 元音和主体能量 | 影响响度和自然度 |
| 1 kHz ~ 4 kHz | 清晰度和多数辅音 | 衰减会导致识别率下降 |
| 4 kHz ~ 8 kHz | 齿音、细节、空气感 | 过强会刺耳,过弱会不清楚 |
| 8 kHz 以上 | 宽带语音细节和高频噪声 | 受采样率、麦克风和编码限制 |
电话窄带语音通常只保留 300 Hz 到 3.4 kHz,宽带语音会扩展到 7 kHz 左右,超宽带和全带语音能保留更多高频细节。
分贝
分贝是对数单位,用于表达比例。声学中常见几种写法:
| 表达 | 含义 | 用途 |
|---|---|---|
| dB SPL | 相对 20 µPa 的声压级 | 描述环境声、扬声器声压 |
| dBFS | 相对数字满幅的电平 | 描述 PCM 是否接近削顶 |
| dBA | 加权声压级 | 更接近人耳对不同频段的敏感度 |
| SNR | 信号与噪声比 | 判断语音相对噪声是否足够突出 |
数字音频里,0 dBFS 是满幅上限,不能再高。录音峰值长期贴近 0 dBFS,通常意味着削顶风险;峰值过低则会牺牲有效动态范围。
采样率与位深
采样率决定数字音频能表示的最高频率。按照奈奎斯特定理,采样率至少要大于信号最高频率的两倍。
| 采样率 | 常见用途 | 说明 |
|---|---|---|
| 8 kHz | 窄带电话 | 最高有效频率约 4 kHz |
| 16 kHz | 语音识别、语音通话 | 语音算法常用 |
| 24 kHz | 语音合成、宽带语音 | 高频细节更好 |
| 44.1 kHz | 音乐、消费音频 | CD 标准 |
| 48 kHz | 视频、会议、专业音频 | 工程系统常用 |
位深决定量化精度。可以把位深理解成“尺子的刻度密度”:刻度越密,越能细致记录声音幅度;刻度太粗,安静细节会被量化误差淹没。16 bit PCM 已能覆盖大多数语音场景,24 bit 更适合录音、后期和需要更高动态范围的链路。
PCM 与常见格式
PCM 是最常见的未压缩音频表示方式。每个采样点记录一个数字幅度,多声道按一定顺序交织或分离存储。
常见参数可以按“每秒取多少次、每次记多细、有几只耳朵、每次处理多长一小段”来理解:
| 参数 | 形象理解 | 影响 |
|---|---|---|
| 采样率 | 每秒给声波拍多少张照片 | 决定能记录到多高的频率 |
| 位深 | 每个采样点的刻度有多细 | 决定动态范围和量化噪声 |
| 声道数 | 同时有几只麦克风或几路播放 | 决定空间信息和数据量 |
| 帧长 | 算法一次看多长的一小段声音 | 影响延迟、稳定性和实时性 |
16 kHz、16 bit、单声道语音可以理解为:每秒取 16000 个点,每个点用 16 bit 记录幅度,只记录一路声音。这个数据量对语音识别足够轻,但对音乐高频细节不够完整。
时域与频域
时域看波形随时间的变化,适合观察削顶、静音、爆音、延迟和端点。频域看能量在不同频率上的分布,适合观察噪声、频响、啸叫和滤波效果。
常用分析方法:
- 波形图:看幅度、静音、削顶、突发噪声。
- 频谱图:看某一段音频的频率分布。
- 语谱图:看频率随时间变化,语音和噪声差异更直观。
- 互相关:估计两路信号之间的延迟。
- FFT:把时域信号转换到频域。
常见数字处理
| 处理 | 作用 | 注意点 |
|---|---|---|
| 重采样 | 改变采样率 | 低质量重采样会带来混叠和失真 |
| 高通滤波 | 去除低频噪声 | 截止频率过高会削弱语音厚度 |
| 低通滤波 | 去除高频噪声 | 截止频率过低会影响清晰度 |
| 均衡 EQ | 调整不同频段增益 | 不应替代结构和硬件问题修复 |
| 动态范围压缩 | 控制响度波动 | 过度压缩会让声音疲劳 |
| 限幅 | 防止削顶 | 长期触发说明前级增益设计不合理 |
排查入口
| 现象 | 先看什么 |
|---|---|
| 录音很小 | PCM 峰值、RMS、电路增益、麦克风灵敏度 |
| 录音破音 | 波形是否削顶、模拟前端是否饱和 |
| 识别漏字 | 语谱图中辅音是否被噪声或滤波削弱 |
| 声音发闷 | 2 kHz 以上频段是否明显衰减 |
| 背景噪声大 | 静音段噪声谱、SNR、地噪或电源噪声 |
| 阵列定位不准 | 各路相位、延迟、采样同步 |
总结
声学问题最终都会落到可观测信号上。先固定采样率、位深、声道顺序和录音链路,再用波形、频谱和指标判断问题在物理结构、模拟链路、数字处理还是模型算法。
