两种合成自然韵律语音的新方法-CFANZ编程社区

在ICASSP 2021会议上，某中心文本转语音团队发表了两篇关于合成具有上下文适当韵律的语音的新论文。韵律包括语音的节奏、重音、旋律、时长和响度。文本转语音（TTS）是一个一对多问题，同一段文本可能有多种合适的韵律呈现方式。确定文本的韵律是一个复杂问题，但可以显著提高合成语音的自然度。

这两篇论文中描述的方法共享通用理念，但解决问题的方式根本不同。

论文《神经文本转语音的韵律表示学习和上下文采样》介绍了Kathaka模型，该模型采用新颖的两阶段方法训练。第一阶段，模型通过变分学习方法学习训练数据中所有语音样本的韵律分布。第二阶段，模型根据与语音样本相关文本的语义和句法特征学习从该分布中采样。

根据使用行业标准MUSHRA方法的听者研究，Kathaka产生的语音在自然度方面比基线TTS模型提高了13.2%。

另一篇论文《CAMP：上下文韵律建模的两阶段方法》介绍了上下文感知韵律模型CAMP。与Kathaka类似，CAMP采用两阶段方法训练。第一阶段，CAMP以非变分方式学习训练数据中每个语音样本每个词的韵律表示。第二阶段，模型根据相关文本的语义和句法特征学习预测这些学习到的表示。

根据MUSHRA评估的听者研究，CAMP产生的语音在自然度方面比基线TTS模型提高了26%。

Kathaka采用双编码器架构：

参考编码器处理梅尔频谱图，输出韵律分布参数（均值μ和方差σ）
- 音素编码器处理音素序列
- 使用BERT模型获取上下文词嵌入，并结合图神经网络处理句法解析树
- 采样器从文本预测韵律分布参数 CAMP采用词级韵律表示：
词级参考编码器生成词级韵律表示
- 结合BERT嵌入和四种句法标签（词性、词类、名词结构、标点结构）
- 预测阶段用文本生成的表示替换参考编码器输出两种方法在推理时均使用文本的语义和句法特征来预测韵律表示，替代训练阶段的参考编码器输出，从而实现更自然的语音合成。更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）