W.A.L.T
W.A.L.T是一个基于transformer的实景视频生成方法,通过联合压缩图像和视频到一个统一的潜在空间,实现跨模态的训练和生成。它使用了窗注意力机制来提高内存和训练效率。该方法在多个视频和图像生成基准测试上取得了最先进的性能。
需求人群:
[“生成高保真视频”,”生成动画”,”生成视频预览”]
使用场景示例:
输入文本描述,生成相应的实景视频
输入图像,生成含有该图像内容的视频
输入视频几帧关键帧,生成完整细致的高清视频
产品特色:
实景视频生成
图像生成
文本到视频生成
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END