AI视频生成新突破!美团开源LongCat-Video模型,推理速度提升10倍

2025-10-27 22:02 12142

10月27日,美团LongCat团队正式发布并开源LongCat-Video视频生成模型。这一基于Diffusion Transformer架构的多功能统一视频生成基座,在文生、图生视频基础任务上达到开源SOTA水平。

该模型创新性地通过“条件帧数量”实现任务区分:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容,无需额外模型适配即可形成完整任务闭环。


01 三项核心技术突破

LongCat-Video的核心突破体现在三个方面。模型依托视频续写任务预训练,可稳定输出5分钟级别长视频,且无质量损失,有效规避色彩漂移、画质降解等行业痛点。

针对高分辨率、高帧率视频生成的计算瓶颈,团队采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化策略,使视频推理速度提升至10.1倍

这一136亿参数的模型在VBench等公开基准测试中表现优异。值得注意的是,其在“常识理解”一项中以70.94%的得分位居所有开源模型第一,甚至超过了部分闭源模型。

02 世界模型的第一步

美团LongCat团队将此次发布定位为探索“世界模型”的起点。世界模型被认为是通往下一代智能的核心引擎,它能建模物理规律、时空演化与场景逻辑,赋予AI“看见”世界运行本质的能力。

通过视频生成任务压缩几何、语义、物理等多种形式的知识,人工智能得以在数字空间中模拟、推演真实世界的运行。未来,LongCat模型将融入美团持续投入的自动驾驶、具身智能等深度交互业务场景。

在官方演示中,LongCat-Video已能生成机器人操作、汽车驾驶等专业画面,这些合成数据有望用于训练自动驾驶系统与机器人。

03 开源生态与战略布局

LongCat-Video采用MIT开源协议,这是目前最宽松的商业开源协议之一,允许个人和企业自由商用。模型已同步上线GitHub、Hugging Face等平台。

此次发布是美团“零售+科技”战略的具体落地。2024年,美团将集团战略从“Food+Platform”升级为“零售+科技”,明确将AI、机器人、自动驾驶等作为未来核心方向。

在2024财年业绩发布会上,美团创始人王兴曾阐述公司AI战略的三层架构:通过AI工具提升员工效率、用AI改造现有产品并创建原生AI应用,以及持续投入资源自研大模型。


综合评测显示,LongCat-Video以136亿参数规模,在文本对齐度、运动连贯性等关键指标上展现显著优势。这与谷歌Veo 3等大型模型相比,体现了“小参数强性能”的特点。

模型已开源至GitHub、Hugging Face等平台。从“短视频AI”到“世界模型”的拐点,这只“长猫”正试图用AI的方式,把世界拍给所有人看。