分享好友 发表回复 发表帖子 家装圈首页 家装圈列表 频道列表

3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐

楼主 szjc68059
3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐
 
微软推出最新 AI 成果——语音合成模型 VALL·E,它脱胎于 DALL・E,但专攻音频领域。只需 3 秒语音,就能随意复制任何人的声音。
 
基于 AI「没听过」的声音合成语音,即零样本学习。VALL・E 解决了此前预训练 + 微调模式下,零样本场景导致的生成语音相似度和自然度差的问题。此外,它还同时还支持语音编辑、与 GPT-3 结合的语音内容创建。
 
VALL・E 还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型,同时,连说话者的环境背景音也能准确还原。
 
有网友畅想它可以应用的方向,包括帮助残障人士和别人对话,有声书录制等。
【温馨提示】本文内容和图片为发布者所有,本站只提供信息存储空间服务,如有涉嫌抄袭/侵权/违规内容请联系QQ:727533600 删除!
反对 0
举报 0
收藏 0
打赏 0
评论
输入关键词搜索更多
更多城市地区全国城市联盟