Appearance
语音合成
语音合成 TTS 把文本转换成可播放的语音。它的难点不只是“发出声音”,而是读准文本、控制韵律、保持自然音色,并在真实设备上稳定播放。
TTS 分成两层问题
TTS 可以拆成“怎么读”和“怎么发声”两层。
| 层次 | 解决的问题 | 失败表现 |
|---|---|---|
| 文本前端 | 数字、日期、单位、多音字、分词 | 读错字、断错句、金额日期读法不对 |
| 声学与波形生成 | 音色、韵律、清晰度、自然度 | 机械、拖沓、破音、气声、卡顿 |
很多线上 TTS 问题并不是模型音质差,而是文本前端没处理好。例如导航播报、客服金额、设备型号、英文缩写,都需要领域规则。
文本规范化
文本规范化负责把“写给人看的文本”变成“适合朗读的文本”。
| 原文 | 需要判断的问题 |
|---|---|
| 2026-05-17 | 读日期还是读编号 |
| 3.14 | 读小数、版本号还是数学常数 |
| 100km/h | 单位读法和语序 |
| RMB 128.5 | 货币、金额、小数位 |
| 010-88888888 | 电话区号和号码分组 |
同一个字符串在不同业务里读法不同。版本号“3.10”不能读成“三点一”,金额“3.10 元”不能读成“三点十版本”。因此 TTS 前端需要业务上下文,而不是只靠通用规则。
分词、多音字和韵律
中文 TTS 要解决词边界和读音。多音字依赖上下文,“重庆”和“重复”的“重”不同,“银行行长”里两个“行”也不同。
韵律决定用户听起来是否自然:
| 韵律要素 | 作用 |
|---|---|
| 停顿 | 让长句可理解,避免一口气读完 |
| 重音 | 突出关键信息,如金额、时间、目的地 |
| 语速 | 控制信息密度,客服和导航通常不宜过快 |
| 语调 | 区分陈述、疑问、提醒和警告 |
| 情绪 | 控制品牌角色,但不能牺牲清晰度 |
长文本合成时,分句非常关键。切分太短会断裂,切分太长会首包慢、韵律漂移。
声学模型
声学模型把文字、音素、韵律和音色条件转成声学特征,例如梅尔谱。它决定一句话的大体“说法”:谁在说、语气如何、哪里停顿、哪里拉长。
常见控制项:
| 控制项 | 影响 |
|---|---|
| 说话人 | 音色和身份感 |
| 语速 | 信息密度和响应时长 |
| 音高 | 年龄感、情绪和自然度 |
| 能量 | 重音、强调和响度趋势 |
| 风格 | 客服、导航、播报、角色化表达 |
控制项不是越多越好。过多可调参数会增加测试矩阵,也容易出现某些组合下不稳定。
声码器
声码器把声学特征还原成波形。它直接影响声音质感、细节和实时性。
| 关注点 | 说明 |
|---|---|
| 音质 | 是否有金属感、毛刺、气泡声 |
| 实时率 | 合成是否快于播放速度 |
| 稳定性 | 长文本是否漂移或突然变调 |
| 算力 | 端侧设备能否长期运行 |
| 采样率 | 与设备播放链路是否匹配 |
端侧 TTS 常常需要在音质、模型大小、功耗和首包延迟之间取舍。云端 TTS 可以使用更大模型,但要承担网络延迟和可用性风险。
流式合成
语音助手和大模型对话需要流式 TTS。流式合成的目标是尽快开始播第一句话,同时避免后续断续。
| 策略 | 作用 | 风险 |
|---|---|---|
| 按标点切片 | 简单稳定 | 大模型输出没标点时首包慢 |
| 按短语切片 | 首包快 | 切错会破坏韵律 |
| 缓冲几段再播 | 播放更稳 | 响应变慢 |
| 可中断播放 | 支持用户打断 | 需要清理 TTS 和播放器状态 |
如果文本来自大模型流式输出,不应每来几个字就合成一次。更稳的做法是等待短语或语义边界,再启动合成。
音色和声音克隆
音色是产品体验的一部分。客服、导航、儿童故事、虚拟人对音色要求不同。声音克隆可以用少量样本生成相似音色,但要处理授权、隐私和滥用风险。
| 场景 | 建议 |
|---|---|
| 品牌助手 | 使用授权清晰的固定音色 |
| 客服外呼 | 优先清晰、稳定、可懂,不追求强角色化 |
| 儿童内容 | 语速、音高、情绪要更保守 |
| 个人声音克隆 | 明确授权,增加防滥用策略 |
高风险场景不应让合成声音冒充真实个人身份。
播放侧适配
TTS 在耳机里好听,不代表在小音箱、车机或手机外放上好听。设备播放链路会改变最终效果。
| 设备约束 | 处理 |
|---|---|
| 小喇叭低频弱 | 限制低频,避免发闷和破音 |
| 功放余量小 | 控制峰值和响度,避免削顶 |
| 播报和音乐混放 | 统一响度策略,必要时 ducking |
| 播放时要继续听用户 | TTS 必须进入 AEC 播放参考 |
| 多语言混读 | 前端要识别语言和缩写读法 |
评估指标
| 指标 | 看什么 |
|---|---|
| 读错率 | 数字、单位、多音字、英文缩写是否正确 |
| 自然度 | 韵律、停顿、语调是否像真实说话 |
| 可懂度 | 噪声和小喇叭下是否听得清 |
| 首包延迟 | 从提交文本到开始播放的时间 |
| 实时率 | 合成速度是否满足实时播放 |
| 播放稳定性 | 长文本是否断续、爆音、变调 |
TTS 评估要按场景建立样本。导航要测地名、距离、路口;客服要测金额、日期、条款;智能助手要测短回复、长回复和打断。
常见问题
| 现象 | 优先排查 |
|---|---|
| 数字读错 | 文本规范化和业务上下文 |
| 多音字错 | 分词、词典、上下文模型 |
| 长句不自然 | 分句和韵律预测 |
| 首句慢 | 流式切片、模型冷启动、网络 |
| 播放破音 | 响度、限幅、功放、扬声器 |
| 播放时误唤醒 | TTS 是否进入 AEC 参考 |
总结
TTS 的质量来自文本前端、声学模型、声码器和播放链路共同作用。工程上要把“读准、自然、低延迟、可打断、设备上不破音”一起验收,而不是只听离线生成的一段样音。
