Meta AI推出FoleyGen,用视频生成音频

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
Meta AI推出FoleyGen,用视频生成音频
2023-09-21 09:42

最近的音乐生成技术的进步受到大型深度学习模型和大量数据集的发展的刺激。


然而,视频到音频(V2A)生成的任务仍然是一项挑战,主要是因为高维度视觉和听觉数据之间的复杂关系,以及与时间同步的挑战。


Meta AI 近日发表一篇论文,推出了一个名为 FoleyGen 的音频生成系统,则解决了这个问题。


Meta AI推出FoleyGen,用视频生成音频


原版中英文论文PDF,请添加官方微信 openai 免费领取


FoleyGen利用现有的神经网络音频编码器,双向转换波形数据和离散元。一个Transformer模型可以帮助生成音频元,该模型基于从视觉编码器提取的视觉特征进行条件训练。


V2A生成的普遍问题是如何将生成的音频与视频中的可见行动对齐。


为了解决这个问题,我们探索了三种新的视觉注意力机制。我们还对多个视觉编码器进行了详尽的评估,每个都预先训练了单一modal或多modal任务。


在VGG声音数据集上的实验结果表明,我们提出的FoleyGen在所有客观指标和人类评估方面都胜过了以前的系统。


Meta AI推出FoleyGen,用视频生成音频


该项目在github上有详细的视频介绍,感兴趣的朋友可以去看下。


FoleyGen项目github地址:https://xypb.github.io/CondFoleyGen/





添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群