一次性生成5个8秒视频，用AI做抖音短视频不是梦？

来源：新榜官微

8c1001e93901213fabe1fe2d2b7f50df2d2e9593.jpeg@f_auto

最近的AI视频赛道，在玩法上“卷”出了新高度。有用户用它完善视频细节：

还有人用它创作了科幻大片：

还有大鱼吃小鱼，实现普通摄像头难以拍摄的效果：

较强的灵活性和视频可控性，一下让人难以分辨虚实，而这些镜头都是靠爱诗科技的AI视频工具PixVerse实现的。PixVerse继4月更新运动笔刷功能之后，今日又重磅上线了PixVerse V2模型。V2支持直接生成长达8秒的视频，甚至可以一次性生成1-5个视频片段，并保证风格、主体和场景的一致性。

PixVerse已经率先朝着AI视频生成的一致性方向发力。这是要进军AIGC短片吗？此次更新的PixVerse V2实力究竟如何？“AI新榜”从角色一致性、想象力、控制力维度上，第一时间给各位玩家实测了一番。

86d6277f9e2f07081c761fd297bcde97a801f213.jpeg@f_auto

实测PixVerse新功能：一次性生成5个8秒视频据了解，PixVerse突破了时长技术限制，能单次生成8秒的视频。但要知道AI视频生成的时长越长越容易“露怯”，出现瑕疵。那么，其文本理解能力还能稳定发挥吗？我们先用V2简单测了一下文生视频和图生视频。文生视频

提示词：golden retriever in sunglasses sunbathing on a beach in Hawaii

697bbe53a841595ac22b476f5f375e9a

PixVerse V2版本

fab5a6ba1c2d357e195391448ab0e623

PixVerse V1版本

从生成效果来看，动物类的表现很不错，几秒内可以动的细节更多，比如狗狗的耳朵，毛发。虽然动作幅度依旧比较小，但整体视频呈现得更完整，在视频质量以及清晰度上都有明显的进步。另外，PixVerse V2升级了模型理解和表达能力，在真实性和细节表达上进一步加强。

提示词：A beautiful women is walking towards the camera

1037e19fda41e157030f896e00579beb

PixVerse V2版本

117c360b228ebbd9cd6aa21c574d19cf

PixVerse V1版本

可以看到，人物类镜头方面，画面主体没有出现特别大的技术瑕疵，光影效果也做得很好。相比前一个版本，V2生成的人物动作幅度更大，也更真实。但遗憾的是，和其他的AI视频工具一样，仍然是无法理解提示词当中的镜头术语，如“走向镜头”，画面中主体的运动只是简单转了下头。图生视频图生视频怎么能少得了这张经典梗图：

caef76094b36acaf0afccfe1fc41eb1e01e99c31.jpeg@f_auto

在图生视频模式下，我们没有输入任何提示词，想看看PixVerse V2的“联想”能力如何。

PixVerse V2并没有让图中男生变成“渣男”，而是转过头与红衣女孩错过，看多了其他AI视频工具的戏剧效果，PixVerse V2展现的反而有点淡淡的忧伤。三个人的动作幅度都不大，但难能可贵的是唯一出现脸部的红衣女孩没有出现“变脸”，牺牲了戏剧效果但保证了角色的一致性。相比之下，这张“房子着火我微笑”的梗图生成效果就比较一般了。转头离去，但“变脸”速度巨快：

控制住了变脸，但场景突然切换：

要说整活，还是AI在行啊。但总的来说，图生视频参考了我们上传的图片元素，玩梗能力在线，做二创是个不错的选择。在此前“AI新榜”的短片尝试，以及大量用户反馈和社区讨论反馈中，AI视频的一致性一直是一个难题，更不用说单次生成长达40秒的视频片段了，一起看看PixVerse V2的多片段生成能力。生成多片段40秒视频在PixVerse首页点击右侧“PixVerse V2”，就可以进入多片段生成页面，同样支持文生和图生视频。

8718367adab44aed5fbb322dcc84e10fa38bfbad.jpeg@f_auto

在这里，需要我们选择“Scene 1”，输入相应提示词，再添加“Scene 2”，输入第二个场景想要呈现的画面，以此类推，最多添加5个不同的场景后，一次性生成完整片段。换句话说，就是把短片的视频分镜，通过自然语言的形式呈现出来。从官网发布的信息看，在PixVerse V2模式下，5个场景的画面风格都会与第一个场景保持一致。如果我们还上传了图片，那么这些图片会参考场景1的图片风格进行重绘，保证生成视频风格的一致性。比如，我们输入的提示词如下：

Scene 1：the panda is playing the violin.Scene 2：It is playing the piano.Scene 3：It is eating the hamburger.

大约等待5分钟左右，V2一次性生成了长达16秒的视频片段。可以看到，在视频主体、场景以及画面色调上尽量保持了一致性，还省去了我们单个片段不断“抽卡”的时间。

只不过，最终生成的画面在精细度上还有待提高，依旧会出现小提琴、汉堡微变形的画面瑕疵。如果我们对某个片段熊猫的动作、环境、镜头运动不满意，还可以选择替换相应的角色元素，进行二次编辑。

我们继续尝试一下人物类镜头一致性，将上述提示词中的“panda”换成了“the woman”，测试了一波V2的角色控制能力。没想到的是，PixVerse V2直接规避了短板，生成了全是近景特写的片段，压根没出现人物。

考虑到是“the woman”太过宽泛，我们又将主体替换成确切的人物角色“Harry Potter”，测试结果显示，在多片段生成时，人物手指等细节瑕疵无可避免，但场景、风格一致性上发挥稳定。

5243fbf2b21193132db929d31aa06ad990238d06.jpeg@f_auto

1秒只需0.1元，AI视频的成本竞赛今年下半年，AI视频领域掀起了一波应用间的较量，快手可灵、Runway Gen-3等陆续面向公众开放使用。几家产品的问世，都向我们传递了一个信息“AI视频生成技术更适合短视频制作”。除了效果表现之外，陆续有AI工具开始采取付费订阅制，快手可灵同样结束了免费试用期，正式迈入了“收费时代”。

bba1cd11728b47103e8b904b4156a5f3fd032333.jpeg@f_auto

快影App内公告作为AI领域向来绕不开的问题，商业化的困境同样出现在了视频应用上。当生成越长的视频，是否成本就越贵？据调查机构Factorial Funds发文表示， Sora约30亿参数的训练成本，比1.8万亿参数的GPT-4还要多。

b219ebc4b74543a92dcea507618fec8cbb01144e.jpeg@f_auto

Factorial Funds对Sora的相关报道对于AI视频而言，一些生成服务会根据视频的时长、所需处理的视频复杂性以及使用技术等因素来定价。如果AI视频还包括了高度定制化的内容，对视频生成的质量、连贯程度以及真实性有要求，实际所用的推理成本自然就会更高。曾有媒体报道，国内AI企业做过一个估算，大约两分钟的AI视频实际要花掉180元。盈利，是摆在所有AI视频工具面前的共同问题。哪怕是PixVerse也扛不住相应的推理成本。目前，PixVerse推出了订阅套餐方案，基础会员每月5美元，可以获得1150个积分。

11385343fbf2b21121b17cf64a1803360dd78e16.jpeg@f_auto

PixVerse每生成8秒的视频，需要消耗30个积分，这样算来，1150个积分大约能生成20条完整的15秒短视频，一条短视频的成本折合人民币1.5元，是Runway Gen-3费用的1/3。当然，背后的技术以及生成视频结果的不确定性，导致实际使用的成本会骤升。费用之外，对于大多数普通用户而言，短短几秒的视频时间，如果只是简单的镜头移动，除了获得体验感，很难有真正的使用场景。爱诗科技创始人王长虎在年初接受采访时也提到：“在未来6-12个月里，我们希望用AI制作出15秒长的可消费内容。只有当普通人都能用AI生成出好看、好玩的内容，才是AI视频的ChatGPT时刻”。目前看来，高算力、高成本依旧是商业化的主要障碍，但不少视频玩家也从中找到了用户留存的新方法，“AI整活”“老照片动起来”“AI修复”等抽象玩法在互联网上层出不穷。在大多数用户对AI视频工具的新鲜感褪去之后，如何用新玩法留住用户，摸索出新的赚钱方法，或许会是视频内容玩家下一个竞争赛道。

网址：

文章版权归作者所有，未经允许请勿转载。

THE END

AI文生视频 AI资讯今日AI 最新AI

一次性生成5个8秒视频，用AI做抖音短视频不是梦？｜AI新榜