可灵AI发布全球首个统一多模态视频模型O1,视频创作进入“一站式”时代

2025-12-01 22:10 13642


可灵AI于12月1日宣布其O1视频大模型全量上线,该模型被称为 “全球首个统一多模态视频模型” 。此次突破的核心在于将一个全能引擎融合了文生视频、图生视频、视频编辑等过去需要多个工具才能完成的任务。

新模型采用MVL多模态视觉语言交互架构,用户只需在单一输入框内用自然语言下达指令,即可实现从生成到修改的全流程操作。这意味着视频创作的门槛被前所未有地降低。


 技术突破:统一架构打破功能割裂

O1模型的核心革新是构建了统一的生成式底座,从根本上改变了传统AI视频工具堆砌单一功能模块的模式。

这一架构基于MVL理念,将以往相互割裂的生成与编辑任务无缝整合。无论是参考生视频、文生视频、视频内容增删、风格重绘还是镜头延展,现在都可在同一引擎下完成。

同时,模型引入了Chain-of-thought思维链技术,使其能够进行常识推理与事件推演。这意味着系统可以理解“雨天打伞”与“地面水渍”的因果关系,或“运动员起跑”与“观众反应”的时间顺序,生成内容更符合逻辑。

官方测试数据显示,在复杂场景的事件推演任务中,模型准确率较前代提升67%。

功能创新:解决行业两大痛点

可灵O1重点解决了AI视频落地过程中最棘手的两个问题:角色场景一致性和复杂指令理解。

多视角主体构建技术是O1的突破性能力。该技术能像人类导演一样“记住”主角、道具和场景,无论镜头如何流转,主体特征始终保持稳定。

测试案例表明,在连续200帧的复杂运镜中,人物面部特征识别误差率低于0.3%,衣物褶皱等微观元素也能精准复现。这一能力解决了镜头切换时“特征漂移”的行业难题。

另一方面,模型支持多模态混合指令输入。用户可自由组合文字、图片、视频等多种指令,甚至进行“技能组合”,例如要求“在视频中增加主体的同时修改背景”。

这让创作者能从简单的素材修补中解放,专注于复杂叙事表达。

 创作体验:从繁琐剪辑到简单对话

可灵O1将专业视频制作转化为直观的对话式操作。用户无需手动遮罩或关键帧,只需输入“移除路人”、“将白天改为黄昏”等指令,模型即可自动完成像素级语义重构。

全新的创作界面支持通过自然语言对话调整画面参数,用户可实时修改“主体服饰颜色”、“背景光影效果”等200余项细节。系统会自动生成多版本方案供选择,大幅降低了专业视频创作的技术门槛

对于专业创作者,平台还开放了镜头运动控制、帧率调节等高级功能。同时,O1支持3-10秒自由生成时长,把叙事节奏的控制权交还给创作者。

应用场景:从影视制作到电商营销

这一技术突破将直接赋能多个行业的内容创作生态。

影视创作领域,凭借超强一致性的图片参考和主体库功能,O1可精准锁定每个分镜的角色及服化道,轻松生成多个连贯的影视镜头。这为预告片制作、概念片生成提供了强大工具。

自媒体创作者而言,繁琐的剪辑后期变成了简单对话。过去需要数小时完成的背景修改、路人移除等工作,现在只需几分钟即可完成。

广告电商方面,传统线下广告实拍成本高、制作周期长的问题迎刃而解。用户只需上传商品图、模特图和场景图,配合简单指令,即可快速生成多个商品展示广告,搭建“永不落幕的虚拟T台”。

行业意义:重塑视频内容生产模式

可灵O1的正式上线,标志着AI视频生成从“工具集合”迈向了 “创作伙伴” 的新阶段。

通过整合多模态交互能力,可灵O1实现了从单一功能到综合创作的跨越式升级。这为复杂叙事视频的自动化生成提供了可能,有望重塑视频内容的生产模式。

随着API接口的即将开放,第三方平台也可集成这一能力,进一步扩大其应用生态。这将为整个内容创作行业带来新一轮效率革命。


截至目前,可灵AI已服务超过4500万全球用户,累计生成视频超2亿个。随着O1模型的全量开放,视频创作领域将迎来新一轮创新浪潮。

从影视工业到普通短视频爱好者,从广告营销到电商展示,可灵O1带来的不仅是技术革新,更是一次创作思维的解放。