继快手宣布上线自研的视觉生成大模型产品可灵AI后,大模型企业智谱AI也展示了其在多模态生成式 AI 模型上的研发实力。
7月26日,智谱AI CEO张鹏在智谱 Open Day上宣布,AI生成视频模型清影(Ying)正式上线。即日起所有C端用户,都能通过清影(Ying)体验到AI文生视频、图生视频能力。
据其介绍,在输入一段文字后(俗称Prompt),用户可以选择自己想要生成的风格,包括卡通3D、油画、电影感等,再配上清影自带的音乐,就可以生成充满AI想象力的视频片段。
除了文本生成视频,也可以到清影上图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的照片动起来小程序也会同步上线,只需一步上传照片,AI就能让凝练在旧时光中的照片灵动起来。
“本次清影底座的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。在后续版本中,将推出更高分辨率、更长时长的生成视频功能。” 张鹏称。
在生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。”张鹏表示:“随着算法、数据不断迭代,相信Scaling Law将继续发挥强有力作用。”
相较于OpenAI早前发布的SORA,智谱的清影已完全面向C端,并提供免费版和付费版两种选择。会上,张鹏表示,“为什么要做多模态这件事,视频生成要放到整个技术和产品发展路线当中来看,我们认为它是AGI必须走的路径。”
今年年初时,张鹏曾表示,不止ToB,C端智谱也会去做,但目的比较明确,把闭环做起来,给未来也留下一个可能性。他判断,TO C应用可能未来也是一个要爆发的点。
清影是继智谱清言APP上线后的又一大To C应用,也意味着智谱正式切入AI视频生成市场。
此前张鹏接受时代周报记者采访时曾提到Sora的技术力,他指出,Sora的主要技术思路是用视觉块编码(Visual Patch)的方式,把不同格式的视频进行统 一编码,然后用 Transformer 架构进行训练,并引入类似 Diffusion的Unet方式做在降维和升维的过程中做加噪和去噪。之前的基于Diffusion的模型,特别是把 Stable Diffusion 微调成视频生成的模型,基本上都有着“闪烁”(帧间细节跳变)的问题,张鹏称,“Sora 细节设计很合理,解决了这个问题。”
张鹏表示,Sora另一个特点是高分辨率:视频常见的一个问题是 H*W*T 长度太长,导致分辨率不够高或者需要分层,Sora 直接生成了高分辨率(1080p)的图像。 Sora 可以生成语义丰富的长达 60s 的视频,这说明训练的序列也比较长,训练时候的窗口至少也得有 5s+。从展示出的较短样例分析,可能训练的长度为 7-8s。另外,OpenAI 还使用了基于重要性采样的生成式训练以及虚幻引擎生成一些特定的数据来补充一些 OOD 的情况,例如长程关联等。
智谱AI 一直在多模态领域大力投入,有长期的技术积累,从2021年开始,先后研发了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)和 CogView3(2024)。
“实现全系列产品矩阵对标Open AI 是我们大模型系列产品布局的一贯目标,多模态模型在其中扮演着重要角色,也始终是我们的研究重点。”张鹏称。
暂无评论内容