微软新文本语音模型能在3秒内复制任何人的声音

admin 2023-11-11 23:34:47 AnQuanKeInfo 来源:ZONE.CI 全球网 0 阅读模式

微软新文本语音模型VALL-E只要听3秒钟的声音样本就能复制任何人的声音。

VALL-E 是一种基于转换器(transformer)的文本语音模型,比之前的模型有显著的改进,旧的模型需要长时间训练才能生成新的声音。此外,在生成的语音中声音的语调、卡里斯马(或魅力)和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。[阅读原文]

weinxin
版权声明
本站原创文章转载请注明文章出处及链接,谢谢合作!
评论:0   参与:  0