VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将 TTS 训练数据扩展到 60K 小时的英语语音,这是现有系统的数百倍。VALL-E 出现了上下文学习能力,可用于合成高质量的个性化语音,只需录制 3 秒的未见过的说话者的注册录音作为声音提示。实验结果表明,VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。此外,我们发现 VALL-E 可以在合成中保留说话者的情绪和声音提示的听觉环境。
VALL-E官网: https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e/

一、文本转语音

这是微软研究院最新推出的一款基于语言模型的文本转语音(TTS)技术,它可以用3秒钟的音频样本来模拟任何人的声音,并且保留说话人的情感和声音环境。听起来是不是很神奇?让我们一起来看看它是怎么做到的!
首先,我们要了解一下传统的TTS技术是怎么工作的。一般来说,TTS技术需要把文本转换成音频波形,这个过程涉及到两个步骤:
第一步是把文本转换成梅尔频谱(mel-spectrogram),这是一种对声音信号的频率和时间的表示;
第二步是把梅尔频谱转换成音频波形,这可以用神经网络或者声码器(vocoder)来实现。这种方法虽然可以生成比较自然的语音,但是也有一些缺点:比如需要大量的训练数据,对说话人和内容的控制不够灵活,以及难以实现声音的个性化和多样化。
那么,Vall E是如何解决这些问题的呢?Vall E的核心思想是把TTS看作一个条件语言模型(conditional language model)的任务,而不是一个连续信号回归(continuous signal regression)的任务。也就是说,它不直接生成音频波形,而是生成一种离散的声码器代码(codec code),然后用一个神经网络声码器来解码成音频波形。这种声码器代码是由一个叫做EnCodec的技术提供的,它可以用很少的比特数来压缩和编码音频信号,而且保持很高的质量。
Vall E不仅可以模拟说话人的声音特征,还可以保留说话人的情感和声音环境。比如说,如果你给它一个开心或者悲伤或者生气或者惊讶或者无聊或者任何其他情绪状态下说话人录音作为声音提示,它就会生成相应情绪状态下说话人语音;如果你给它一个在教室或者办公室或者公园或者餐厅或者任何其他场景下说话人录音作为声音提示,它就会生成相应场景下说话人语

二、vall-E有哪些可能的用途?

Vall E的应用场景非常广泛,比如零样本TTS、语音编辑、内容创作等。零样本TTS是指不需要预先训练说话人模型,只需要一个短暂的录音就可以生成任何内容的语音。
语音编辑。Vall E可以通过修改文本来改变语音的内容,这对于那些想要修正或者增删语音中的一些信息的人来说是非常有用的。比如说,你可以用Vall E来修改你的演讲稿或者录音笔记,让它们更符合你的意图或者需求。比如:可以用来给短视频进行配音;你可以输入自己的声音数据,克隆一个你自己的声音出来,然后输入文本,即可输出你自己的音色朗读;
如果是公司、个人工作室,甚至可以用Vall E完成配音、英语朗读等等相关的工作;可以大幅度缩减成本,提高效率;比如一部分录音室就可以使用这种技术进行语音合成;而且随时修改,非常便捷;
内容创作。Vall E可以结合其他的生成型AI模型比如GPT,来创造出有趣或者有价值的语音内容,这对于那些想要用语音来吸引或者影响听众的人来说是非常有意思的。比如说,你可以用Vall E和GPT-4来生成一首诗或者一段故事,并且用你喜欢的声音来朗读它们。当然你也可以创作小说,然后用Vall E把它转换成有声书;

相关导航

没有相关内容!

暂无评论

暂无评论...