AI视频生成新突破！美团开源LongCat-Video模型，推理速度提升10倍

2025-10-27 22:02 12568

10月27日，美团LongCat团队正式发布并开源LongCat-Video视频生成模型。这一基于Diffusion Transformer架构的多功能统一视频生成基座，在文生、图生视频基础任务上达到开源SOTA水平。

该模型创新性地通过“条件帧数量”实现任务区分：文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容，无需额外模型适配即可形成完整任务闭环。

01 三项核心技术突破

LongCat-Video的核心突破体现在三个方面。模型依托视频续写任务预训练，可稳定输出5分钟级别长视频，且无质量损失，有效规避色彩漂移、画质降解等行业痛点。

针对高分辨率、高帧率视频生成的计算瓶颈，团队采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化策略，使视频推理速度提升至10.1倍。

这一136亿参数的模型在VBench等公开基准测试中表现优异。值得注意的是，其在“常识理解”一项中以70.94%的得分位居所有开源模型第一，甚至超过了部分闭源模型。

美团LongCat团队将此次发布定位为探索“世界模型”的起点。世界模型被认为是通往下一代智能的核心引擎，它能建模物理规律、时空演化与场景逻辑，赋予AI“看见”世界运行本质的能力。

通过视频生成任务压缩几何、语义、物理等多种形式的知识，人工智能得以在数字空间中模拟、推演真实世界的运行。未来，LongCat模型将融入美团持续投入的自动驾驶、具身智能等深度交互业务场景。

在官方演示中，LongCat-Video已能生成机器人操作、汽车驾驶等专业画面，这些合成数据有望用于训练自动驾驶系统与机器人。

LongCat-Video采用MIT开源协议，这是目前最宽松的商业开源协议之一，允许个人和企业自由商用。模型已同步上线GitHub、Hugging Face等平台。

此次发布是美团“零售+科技”战略的具体落地。2024年，美团将集团战略从“Food+Platform”升级为“零售+科技”，明确将AI、机器人、自动驾驶等作为未来核心方向。

在2024财年业绩发布会上，美团创始人王兴曾阐述公司AI战略的三层架构：通过AI工具提升员工效率、用AI改造现有产品并创建原生AI应用，以及持续投入资源自研大模型。

综合评测显示，LongCat-Video以136亿参数规模，在文本对齐度、运动连贯性等关键指标上展现显著优势。这与谷歌Veo 3等大型模型相比，体现了“小参数强性能”的特点。

模型已开源至GitHub、Hugging Face等平台。从“短视频AI”到“世界模型”的拐点，这只“长猫”正试图用AI的方式，把世界拍给所有人看。

上一篇 : 国家能源局：1-9月风电新增装机61.09GW！