可灵AI发布全球首个统一多模态视频模型O1，视频创作进入“一站式”时代

2025-12-01 22:10 13858

可灵AI于12月1日宣布其O1视频大模型全量上线，该模型被称为 “全球首个统一多模态视频模型” 。此次突破的核心在于将一个全能引擎融合了文生视频、图生视频、视频编辑等过去需要多个工具才能完成的任务。

新模型采用MVL多模态视觉语言交互架构，用户只需在单一输入框内用自然语言下达指令，即可实现从生成到修改的全流程操作。这意味着视频创作的门槛被前所未有地降低。

技术突破：统一架构打破功能割裂

O1模型的核心革新是构建了统一的生成式底座，从根本上改变了传统AI视频工具堆砌单一功能模块的模式。

这一架构基于MVL理念，将以往相互割裂的生成与编辑任务无缝整合。无论是参考生视频、文生视频、视频内容增删、风格重绘还是镜头延展，现在都可在同一引擎下完成。

同时，模型引入了Chain-of-thought思维链技术，使其能够进行常识推理与事件推演。这意味着系统可以理解“雨天打伞”与“地面水渍”的因果关系，或“运动员起跑”与“观众反应”的时间顺序，生成内容更符合逻辑。

官方测试数据显示，在复杂场景的事件推演任务中，模型准确率较前代提升67%。

可灵O1重点解决了AI视频落地过程中最棘手的两个问题：角色场景一致性和复杂指令理解。

多视角主体构建技术是O1的突破性能力。该技术能像人类导演一样“记住”主角、道具和场景，无论镜头如何流转，主体特征始终保持稳定。

测试案例表明，在连续200帧的复杂运镜中，人物面部特征识别误差率低于0.3%，衣物褶皱等微观元素也能精准复现。这一能力解决了镜头切换时“特征漂移”的行业难题。

另一方面，模型支持多模态混合指令输入。用户可自由组合文字、图片、视频等多种指令，甚至进行“技能组合”，例如要求“在视频中增加主体的同时修改背景”。

这让创作者能从简单的素材修补中解放，专注于复杂叙事表达。

可灵O1将专业视频制作转化为直观的对话式操作。用户无需手动遮罩或关键帧，只需输入“移除路人”、“将白天改为黄昏”等指令，模型即可自动完成像素级语义重构。

全新的创作界面支持通过自然语言对话调整画面参数，用户可实时修改“主体服饰颜色”、“背景光影效果”等200余项细节。系统会自动生成多版本方案供选择，大幅降低了专业视频创作的技术门槛。

对于专业创作者，平台还开放了镜头运动控制、帧率调节等高级功能。同时，O1支持3-10秒自由生成时长，把叙事节奏的控制权交还给创作者。

这一技术突破将直接赋能多个行业的内容创作生态。

在影视创作领域，凭借超强一致性的图片参考和主体库功能，O1可精准锁定每个分镜的角色及服化道，轻松生成多个连贯的影视镜头。这为预告片制作、概念片生成提供了强大工具。

对自媒体创作者而言，繁琐的剪辑后期变成了简单对话。过去需要数小时完成的背景修改、路人移除等工作，现在只需几分钟即可完成。

在广告电商方面，传统线下广告实拍成本高、制作周期长的问题迎刃而解。用户只需上传商品图、模特图和场景图，配合简单指令，即可快速生成多个商品展示广告，搭建“永不落幕的虚拟T台”。

可灵O1的正式上线，标志着AI视频生成从“工具集合”迈向了 “创作伙伴” 的新阶段。

通过整合多模态交互能力，可灵O1实现了从单一功能到综合创作的跨越式升级。这为复杂叙事视频的自动化生成提供了可能，有望重塑视频内容的生产模式。

随着API接口的即将开放，第三方平台也可集成这一能力，进一步扩大其应用生态。这将为整个内容创作行业带来新一轮效率革命。

截至目前，可灵AI已服务超过4500万全球用户，累计生成视频超2亿个。随着O1模型的全量开放，视频创作领域将迎来新一轮创新浪潮。

从影视工业到普通短视频爱好者，从广告营销到电商展示，可灵O1带来的不仅是技术革新，更是一次创作思维的解放。