一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

搜索
AI-TNT
正文
资源拓展
一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA
2025-05-13 14:34

「矩阵」不再是科幻!Matrix-Game震撼来袭,突破边界带来交互式引擎。只需一句话,沙漠森林等任意场景可控生成,动作丝滑操控,360°视角自由切换,沉浸感爆棚。


黑客帝国中的「矩阵」,已照进现实。


指尖轻点,一个细节满满、物理规则完美运转的虚拟世界就此诞生。


这个曾经只在科幻大片出现的场景,如今「空间智能」就帮人类实现了。


继之前刷屏的单张图片生成虚拟世界Matrix Zero之后,昆仑万维又来搞事情了!


这次,他们再度撕裂技术边界,推出Matrix系巅峰之作——Matrix-Game。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


GitHub:https://github.com/SkyworkAI/Matrix-Game

Hugging Face:https://huggingface.co/Skywork/Matrix-Game

技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

项目主页:https://matrix-game-homepage.github.io


这是一个不仅能生成虚拟世界,更让你成为世界主宰的交互式创世引擎。


在这个空间智能时代,视频生成、3D建模、交互控制的融合之力,正彻底颠覆人类与虚拟世界的连接方式。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


直通「创世之神」


简单来说,Matrix-Game就是通往「创世神」之路的超级加速器。


它是Matrix系列在交互世界生成领域的首次惊艳落地,一个专为游戏世界量身打造的交互式世界基础模型。


Matrix-Game的强大之处在于,不仅能在开放世界里「造」出高质量场景,还能精准控制里面的细节。


现在,只需要输入一个指令,即可自由探索、操控,甚至创造出细节丰富、物理规则合理的虚拟世界。


多场景可控生成


比如沙漠、森林、山丘、冰原、河流等场景,Matrix-Game可一键生成。


这种多场景泛化能力,让Matrix-Game具备了强大的环境适用性,覆盖了不同地形、天气、生物群系的Minecraft场景。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

依次是:沙漠、海滩、山丘、河流、森林


它还能支持前进、跳跃、攻击等细节操作,会根据用户的输入,准确响应。


不论是敲击键盘,还是鼠标滑动,操作体验非常丝滑,仿佛置身于真实世界。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

依次是:前进、后退、向左、向右、跳跃、攻击


包括视角移动,可实现360°无死角生成。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

依次是:视角移动向上、向下、向左、向右


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

依次是:视角移动左上、左下、右上、右下


现在,只需把场景和交互控制融合,便会惊叹Matrix-Game无与伦比的技术实力。


不论是前进、后退,向左、向右,Matrix-Game不仅能精准响应,而且周边物理环境生成的稳定性极高。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


再比如,跳跃攻击等幅度大的动作,更是对AI空间生成提出了高难度的考验。


Matrix-Game模拟了真实物理规律,精准拿捏。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


它生成的虚拟世界不仅视觉连贯、细节逼真,还严格遵守了自然物理规律,如重力、碰撞等。


这种高保真表现,显著提升了沉浸感,让用户仿佛「身临其境」。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


总而言之,Matrix-Game能在不同Minecraft场景下做到可控生成,包括基础运动、复合运动、视角运动等。


泛化场景生成


更令人兴奋的是,Matrix-Game展现出向非Minecraft游戏环境泛化的潜力,为更广泛的应用奠定了基础。


比如,生成赛博风格的城市。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


还有古建筑风格的场景,都能无限生成。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


由上可见,Matrix-Game这一突破性成果,直接点燃了虚拟世界的无限可能。


它不仅刷新了交互式世界生成的技术天花板,更为构建通用虚拟世界基座树立了全新标杆。


那么,它是如何做到的呢?


解密Matrix-Game

三大技术核心


接下来,让我们一一拆解Matrix-Game的三大「秘密武器」。


大规模高质量Matrix-Game-MC数据集


数据是AI模型的「养分」,其质量和丰富度直接决定了模型的成败。


为此,昆仑万维团队自主构建了大规模Matrix-Game-MC数据集,为复杂环境的动态学习和交互模式训练,提供了坚实的基础。


它涵盖了「无标注预训练数据」和精细标注的「有标注可控数据」,兼顾了数据规模和质量。


无标注预训练数据


从6000小时的MineDojo数据中,研究者通过三阶段过滤机制,筛选出近千小时高质量数据。


具体来说,经过了(1) 画质与美学过滤;(2) 非游戏内容剔除;(3) 动态与视角稳定性过滤。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


有标注可控数据


这里,采用了两种策略,生成数千小时的精细标注数据。


  • 探索智能体(Exploration Agent):利用VPT agent在 MineRL环境中进行自动探索,生成包含精确键盘与鼠标控制信号的Minecraft视频数据,支持可控性学习。


  • 程序化模拟(Unreal Procedural Simulation):基于Unreal Engine手动构建清晰、标注精确的交互场景,提供位置信息、动作标注(离散与连续)、以及环境反馈信号(如方块是否成功破坏),生成高精度、无噪声的可控标注数据,助力高保真动作-响应建模。


核心架构:从图像出发构建可控交互世界


基于当前最火的扩散模型技术,Matrix-Game打造了一个从图像到世界生成的创新框架。


只需输入一个指令、鼠标移动,它就能生成连贯、可控的互动视频,兼顾视觉精度、时序一致性和物理合理性。


整体架构的设计,有三大核心亮点:


1. 图像到世界建模(Image-to-World Modeling)


它不依赖语言提示,仅基于视觉信号建模空间几何、物体运动,及物理交互,强调空间智能能力。


输入形式是以单张参考图像为起点,生成交互式视频。


在交互可控生成上,融合了用户动作输入(如键盘、鼠标),通过多模态扩散模型,直接生成虚拟游戏世界的视频内容。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


2. 自回归式视频生成(Autoregressive Diffusion Generation)


Matrix-Game支持自回归方式scaling生成长度,可持续生成高一致性长视频内容。


每次,它会以前一视频最后k=5帧作为运动上下文,逐段递进生成,确保了时间上的连贯性。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


此外,通过随机扰动、随机删除、分类引导(CFG)策略,可缓解时序漂移和误差积累,确保了时间连贯性。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


3. 可控交互设计(Injecting Actions for Controllability)


对于交互设计,键盘动作(如上下左右跳跃攻击)是以离散token表达,视角移动动作(如鼠标pitch角度)则以连续token表达。


同时,它采用了GameFactory控制模块,融入多模态Diffusion Transformer架构,并利用CFG提升对控制信号的鲁棒响应能力。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


得益于这一架构,使得Matrix-Game在生成交互世界时,既能保持视觉上的惊艳效果,又能精准响应用户指令。


统一评测体系


接下来,如何去全面、科学地评估交互世界生成模型的性能?


为此,研究团队创新性提出GameWorld Score评测体系。


它从视觉质量、时间一致性、交互可控性,以及物理规则理解四个关键维度,来进行量化评估。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


  • 视觉质量(Visual Quality):基于人类视觉系统(HVS)标准,评估每一帧图像清晰度、结构一致性与真实感。


  • 时间一致性(Temporal Quality):衡量视频的动态连贯性,包括运动连续性、节奏平滑性与时间稳定性。


  • 交互可控性(Action Controllability):测试生成结果是否准确响应用户输入的控制信号,涵盖离散控制(如前进、跳跃)和连续控制(如视角转换)。


  • 物理规则理解(Physical Rule Understanding):验证生成视频是否遵循物理常识与空间一致性。


这一体系的提出,填补了行业在交互性、物理一致性等维度的评测空白,为模型的迭代优化提供了科学依据。


而且, GameWorld Score首次实现了对「感知质量+控制能力+物理合理性」的全方位衡量。


它不仅为Matrix-Game性能提供了全面量化的依据,也为整个交互世界生成领域,树立了统一的标准。


刷新SOTA

重塑交互式世界生成标杆


在实验评估中,通过两阶段训练策略(无标注预训练 + 动作标注微调),17B参数规模的大模型在空间理解、物理交互建模,以及用户指令响应方面,取得了显著的突破。


在GameWorld Score评测系统中,Matrix-Game在以上四大评测维度中全面领先,超越了业内著名开源基线——Decart的Oasis和微软的MineWorld。


尤其是,新模型在交互可控性和物理一致性等关键指标上,表现尤为突出。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


在双盲评实验中,用户更倾向于选择Matrix-Game生成的视频:


  • 96.3%总体偏好率,生成效果更真实、连贯、可信;
  • 93.76%动作控制偏好,准确响应键盘与鼠标指令;
  • 98.23%视觉质量得分,单帧画面更清晰美观;
  • 89.56%时间一致性得分,动态流畅,无闪烁跳变。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


在控制性能上,Matrix-Game可实现「运动」「攻击」等动作高达90%+准确率;细粒度视角控制下依然保持高精度响应。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


此外,Matrix-Game在8大典型Minecraft场景中,也全面领先。


模型展现出卓越的环境适应与泛化能力,可广泛应用于复杂动态的虚拟世界交互任务。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


Matrix-Game用事实证明,它不仅能「看得清」,更能「动得准、控得稳」,是当前最强的交互式世界生成基座模型之一。


多领域革命引擎

解锁交互宇宙


作为空间智能领域的先锋之作,Matrix-Game不仅是一个技术突破,更是一个跨行业的赋能引擎。


通过融合视频生成、三维建模与交互控制等核心技术,空间智能不仅支持更加自然、直观、沉浸的体验,也在具身智能、影视制作、游戏开发等领域展现出巨大潜力。


Matrix-Game强大的交互式生成能力,未来将在多个领域掀起深远的变革。


虚拟游戏世界快速搭建


老黄曾表示,「用不了十年,我们就能看到游戏中每一个像素都是由AI生成的」。


Matrix-Game的诞生,让这一预言又近了一步。


传统游戏世界构建,往往依赖人工设计和3D建模,开发周期长、成本高。


而且,许多游戏地图和任务缺乏多样性,难以满足玩家对高自由度探索需求。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


对于游戏开发者,Matrix-Game能以低成本、高效率生成细节丰富、可控的游戏地图与任务环境,极大地缩短了开发周期。


不论是开放世界RPG的广袤大陆,还是沙盒游戏的动态地形,Matrix-Game都能根据指令实时生成,赋予玩家更高自由度的探索体验。


同时,其物理一致性确保了游戏世界的真实感、沉浸感。


具身智能体训练与测试


具身智能,也称物理AI,是AI下一个前沿。


它能够让智能体在物理世界中,具备感知、推理和行动的能力。然而,现实开发和测试中,具身智能面临着多种挑战。


比如,环境复杂性不足,测试场景单一,测试中难以复现现实世界动态性和复杂性,导致训练效果较为有限。


又或是,真实物理环境搭建和数据采集耗时耗力,成本高昂等等。


在红杉最新演讲中,Jim Fan将「物理图灵测试」称之为AI的下一个北极星,即智能体在虚拟和物理世界无缝操作,展现出与人类无异的能力。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


而Matrix-Game以高保真的交互世界生成能力,为智能体提供逼真的训练环境,直接助力这一目标的实现。


从上面demo中不难看出,Matrix-Game可快速生成高度逼真虚拟场景,森林、山丘、冰原、蘑菇等,涵盖了多样地形、物体元素,多样化场景定制。


这种环境不仅视觉细节丰富,还严格遵守物理规律,可以为具身智能提供接近真实世界的训练场。


另外,支持前进、跳跃、抓取等精细动作,Matrix-Game还能让智能体实时、细致的交互。


未来,Matrix-Game通过模拟极端天气、家庭环境等,训练机器人、服务智能体,推动通用具身智能的实现。


影视与元宇宙内容生产


在影视与元宇宙领域,虚拟场景往往依赖3D建模和特效团队,一个好莱坞特效场景制作可能耗费数月,甚至数年,成本动辄数百万。


一些现有虚拟世界,多为静态或有限的交互,难以满足元宇宙用户对自由探索和实时互动的需求。


Matrix-Game能以更高效生产真实合理的动态虚拟空间,直接赋能创意内容制作与沉浸式体验的开发。


它为导演、元宇宙开发者提供了一个革命性工具,将重塑虚拟内容创作的未来。


教育与仿真系统构建


Matrix-Game在教育、仿真系统构建领域中,同样大有可为。


即,通过生成高度可控、交互丰富的虚拟学习环境,为学生和专业人士提供一个沉浸式训练平台。


举个栗子,在医学教育中,或许就可以利用Matrix-Game模拟手术室场景,让学生身临其境练习复杂操作。


在航空航天领域,则可以用于生成逼真的飞行模拟环境,帮助飞行员提升应对突发状况的能力。


这些虚拟场景的搭建,不仅能降低培训成本,还能通过交互反馈提升学习效果。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA


此外,在文化遗产保护、零售电商、数字孪生与智能城市规划等领域中,Matrix-Game未来将会释放无限的潜力。


它让世界不再是静态的画卷,而是可以被探索、被操控、被创造的活宇宙。


下一步,Matrix-Game还将继续迭代优化,带领我们迈向更加智能、沉浸的虚拟世界。


参考资料:

https://github.com/SkyworkAI/Matrix-Gamehttps://huggingface.co/Skywork/Matrix-Gamehttps://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdfhttps://matrix-game-homepage.github.io


文章来自于“新智元”,作者“桃子 好困”。


一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

IOS下载
安卓下载
微信群
沪ICP备2023015588号