MolmoAct 2 产品深度分析报告

MolmoAct 2 产品深度分析报告

——面向创业者的 Embodied AI 赛道战略解读

报告日期:2026年5月 | 编制:基于公开资料综合分析


一、产品概览

MolmoAct 2 是由美国艾伦人工智能研究所(Allen Institute for AI,简称 Ai2)于 2026 年 5 月 5 日正式发布的第二代动作推理模型(Action Reasoning Model, ARM)。它是一个面向机器人领域的开源多模态基础模型,属于 VLA(Vision-Language-Action,视觉-语言-动作) 架构的全新范式。

核心指标数据
发布机构Allen Institute for AI (Ai2)
发布时间2026年5月5日
模型参数量约70亿(基于Molmo 2-ER)
推理速度提升相比初代MolmoAct提升 37倍
单次动作调用延迟基础模型约180ms,启用深度推理约790ms
训练数据规模700+小时双机械臂演示数据(+多源数据集混合)
开源协议Apache 2.0
官方仓库github.com/allenai/molmoact2

二、技术架构与创新点深度解析

2.1 核心架构范式转移:从”端到端”到”推理-执行”分层架构

传统 VLA 模型(如 RT-2、Octo、π0.5)采用的是端到端映射范式——将像素图像直接映射为离散动作 token。这种方式本质上是一个”黑箱”,模型无法解释自己为什么做出某个动作决策。

MolmoAct 2 的根本性创新在于引入了分层架构:

视觉输入(RGB相机)

感知理解层(Molmo 2-ER 视觉语言模型)

3D空间推理层(Action Reasoning 中间层)
    → 生成3D坐标、位姿、意图的符号化表示

动作执行层(Flow Matching 连续动作专家)
    → 输出精确的机械臂控制轨迹

这一架构的核心价值在于:

  1. 可解释性:模型在执行动作前,会先生成一个关于”3D空间中要做什么”的中间表示(文本或符号形式),这相当于为机器人的决策过程提供了”思维链”(Chain-of-Thought)。创业者可以借此进行流程审计和错误诊断。

  2. 纠错能力:通过在推理层检查3D空间意图的合理性,模型可以在动作执行前发现并修正空间错误(如碰撞预判),而非等到机械臂已经撞上障碍物才反应。

  3. 泛化能力:中间层的3D推理抽象使得模型不依赖于特定任务的像素-动作映射,而是理解了”空间操作的本质逻辑”。

2.2 关键技术模块详解

(1)Molmo 2-ER 推理骨干网络

MolmoAct 2 不是简单地在 Molmo 2 上微调,而是在其专门训练的具身推理变体 Molmo 2-ER基础上构建。该骨干网络在约 300 万个额外的具身推理样本上进行了强化训练,涵盖:

  • 基于图像的指向理解
  • 物体检测与识别
  • 抽象空间推理
  • 多图像联合推理
  • 基于图像和视频的空间问答

在 13 项具身推理基准测试中,Molmo 2-ER 取得了 63.8/100 的平均分,超越了 GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B、GR-ER 1.5 等业界领先模型。这意味着其”大脑”的感知和理解能力已经达到 SOTA 水平。

(2)自适应深度推理(Adaptive Depth Reasoning)

MolmoAct 2 提供了两个变体:

  • MolmoAct 2(基础版):仅使用 RGB 图像输入,通过预训练知识隐式推断3D结构
  • MolmoAct 2-Think(深度推理版):引入深度感知 token,显式建模物体距离和3D空间关系

关键创新在于自适应深度路由机制:模型不会为每个图像区域都计算深度信息(这会极大增加延迟),而是仅在动态场景变化区域进行深度预测。这种选择性计算机制带来了 17% 的推理加速,同时保持了深度推理的精度优势。

(3)Flow Matching 连续动作专家

不同于传统将动作离散化为有限 token 的方式,MolmoAct 2 采用流匹配(Flow Matching) 技术生成连续的控制轨迹。这意味着:

  • 机械臂运动更加平滑自然(无离散跳跃)
  • 控制精度更高(亚毫米级轨迹规划)
  • 闭环控制频率更高(支持实时反馈调整)

(4)开放动作分词器 MolmoAct 2-FAST

此前业界广泛使用 Physical Intelligence 的 FAST 分词器,但其训练数据从未开源。MolmoAct 2-FAST 是 Ai2 完全从零训练的开源替代方案,训练数据随模型一并发布。这消除了创业团队对闭源工具链的依赖。

2.3 37倍速度提升的技术路径

推理速度从 MolmoAct 的 6,700ms 降至 MolmoAct 2 的约 180-790ms,实现 37x 加速的技术手段包括:

  1. 更高效的视觉编码器架构优化
  2. 动作预测头的参数剪枝与精简
  3. 视觉-空间数据的高效 token 化策略
  4. KV Cache 桥接机制(复用已计算的视觉特征,避免重复推理)
  5. 自适应深度推理减少不必要的计算量
  6. 优化后的推理内核(Inference Kernels)

这一速度提升具有决定性意义——从”机器人每步动作间有明显停顿”到”近实时环境响应”的质变,直接决定了产品在真实场景中的可用性。


三、性能评估:硬核数据说话

3.1 仿真环境表现

基准测试MolmoAct 2π0.5(Physical Intelligence)领先幅度
MolmoBot(通用操控)20.6%10.3%~2x
RoboEval(双臂操控)0.4430.405+9.4%

注:MolmoBot 被设计为高难度基准,多数基线模型得分在个位数。

3.2 真实世界零样本测试(Franka 机械臂)

在完全不进行任务专用微调的情况下:

任务MolmoAct 2 成功率
苹果放到盘中100%(15/15)
移液管放入托盘86.7%
红色方块放入卷尺中心93.3%
刀具放入盒子93.3%
多物体移入碗中(长程任务)62%
平均成功率87.1%

对比:MolmoBot 平均 48.4%,π0.5 平均 45.2%。MolmoAct 2 在零样本场景下以近 40 个百分点的优势领先。

3.3 第三方权威评估(Cortex AI)

Ai2 委托第三方评估公司 Cortex AI 对 5 个机器人策略进行了系统多轮次对比测试:

模型平均得分
MolmoAct 20.51(第一)
OpenVLA-OFT0.36
π0.50.32
Cosmos Policy0.16
X-VLA0.05

MolmoAct 2 在 8 项任务中的 7 项排名第一,包括:试管归位、糖果存储、工具收纳、玩具整理、杯子存储、吸头准备和制作爆米花。

3.4 微调后适应能力

经过针对性微调后,MolmoAct 2 在以下实际任务中表现出色:

  • 毛巾折叠
  • 碗碟放置
  • 桌面擦拭
  • 托盘搬运
  • 碗碟入水槽

在 LIBERO(衡量模型技能获取与保持能力的基准)中,微调后平均成功率达 97.2%,MolmoAct 2-Think 达到 98.1%,相比初代 MolmoAct 提升约 10-11 个百分点。


四、数据策略与生态布局

4.1 数据集发布策略

Ai2 同步发布了三大数据集,构成完整的数据生态:

数据集规模用途
MolmoAct 2-Bimanual YAM700+小时双机械臂演示双臂协同操控训练与评测
MolmoAct 2 Robotics Datasets多源混合(SO-100/SO-101、DROID、BC-Z、Bridge 等)通用操控能力训练
Molmo2-ER Datasets~300万具身推理样本推理骨干网络预训练

核心洞察:MolmoAct 2-Bimanual YAM 是迄今最大的开源双臂桌面操控数据集,数据量是初代 MolmoAct 训练数据的 30 倍以上。数据覆盖毛巾折叠、杂货扫描、智能手机充电、餐桌清理等贴近日常生活的任务。

此外,团队通过开源 VLM 重新标注,将唯一标签数从 ~7.1 万扩充至 ~14.6 万,大幅提升了语言指令的多样性与准确性。

4.2 硬件支持策略

当前即插即用支持三种硬件平台:

  1. SO-100/SO-101:低成本开源机械臂(推荐标准手腕配置 + 第三人称相机)
  2. Bimanual YAM 双臂系统:参考设计已公开,含完整的零件清单和接线方案(Intel RealSense D435 + D405 相机阵列)
  3. Franka Emika:遵循官方 DROID 实现方案

关键声明:模型本身是**硬件无关(hardware-agnostic)**的,输出标准化的 3D 轨迹和动作意图,可通过统一控制接口适配不同平台。但对新平台(如人形机器人、灵巧手)仍需额外训练数据。

4.3 开源许可证与定位

  • Apache 2.0 许可证:允许商业使用、修改和再分发
  • 定位:明确标注为”研究与教育用途”,符合 Ai2 负责任使用指南
  • 配套提供了参考硬件方案、LeRobot v3.0 格式数据加载工具链,降低了入门门槛

五、竞争格局分析

5.1 与主要竞品的对比

维度MolmoAct 2π0.5 (Physical Intelligence)RT-2 / Octo
开源程度完全开源(权重+数据+工具链)闭源部分开源
推理架构3D 推理中间层(分层可解释)端到端映射端到端映射
推理速度180-790ms未公开较高延迟
双臂操控原生支持(零微调)需要微调需要微调
模型规模~7B未公开varies
基准表现领先第二中等
训练数据策略700h+ 自采 + 多源混合未公开数据多源混合

5.2 DeepSeek 式范式转移的类比

Ai2 研究员贾飞迪(Jiafei Duan)明确将 MolmoAct 2 的发布类比为机器人领域的”DeepSeek 时刻”——证明通过更开放、更高效的方法,可以用更少的数据达到甚至超越闭源巨头的性能。这一类比对创业者具有深刻的战略启示:

“我们证明了可以用显著更少的数据、更开放的方式,达到可比的性能,使其他人能够轻松地在我们的模型基础上构建自己的工作流程。“

5.3 行业定位

当前机器人基础模型市场的竞争格局:

闭源阵营:Physical Intelligence (π0.5, 获数十亿美元投资) → 性能领先但不可定制
          Google RT-2/RTC → 强大但绑定谷歌生态
          Tesla Optimus → 垂直整合

开源阵营:MolmoAct 2 (Ai2) → 当前开源 SOTA,强调可解释性
          OpenVLA → 开源但性能次之
          RT-1/RVT → 早期开源方案

MolmoAct 2 的差异化定位:在保持完全开源的同时,在推理速度、任务成功率和架构可解释性三个维度上同时领先,为创业团队提供了”不依赖巨头也能构建高性能机器人 AI”的技术基础。


六、创业机会分析

6.1 直接价值主张

对于考虑进入机器人 AI 赛道的创业者,MolmoAct 2 的释放意味着:

  1. 大幅降低技术门槛:无需从头训练千亿参数模型,基于开源权重即可启动产品开发
  2. 显著降低数据成本:700+小时高质量双臂数据 + 多源数据集混合,覆盖了最常见的桌面操控场景
  3. 快速原型验证:参考硬件方案明确,SO-100 等低成本硬件即可跑通完整 pipeline
  4. 性能基准已验证:在仿真、零样本部署、第三方评测三个维度均取得 SOTA,技术方案可行性已获验证

6.2 潜在应用场景

基于 MolmoAct 2 的核心能力,以下场景具备高商业化潜力:

🔬 科研与医疗自动化

  • 湿实验室自动化(已在斯坦福 Cong Lab 验证 CRISPR 实验流程)
  • 样本处理与检测设备操作
  • 高通量实验平台

🏠 家庭服务机器人

  • 厨房操作(烹饪辅助、餐具清理)
  • 日常整理(衣物折叠、物品收纳)
  • 老年人照护辅助

🏭 轻工业与柔性制造

  • 小批量定制化生产线的快速切换
  • 产品组装与质检
  • 仓储分拣(桌面级)

🍽️ 餐饮与服务业

  • 咖啡拉花与饮品制作
  • 餐桌清理与布置
  • 食材预处理

6.3 商业化路径建议

路径优势风险
基于 MolmoAct 2 做场景微调开发周期短,技术风险低需要垂直领域数据积累
构建数据飞轮数据壁垒一旦建立便形成护城河前期数据采集成本高昂
提供端到端机器人 AI 解决方案价值链条长,利润率可观需要硬件集成与现场部署能力
开发配套工具链/中间件轻资产模式,易于规模化竞争激烈,需要差异化定位

6.4 投资视角的估值锚点

  • Physical Intelligence(闭源)已获数十亿美元级别投资,估值极高
  • MolmoAct 2 证明了开源路线可以达到同等性能,这会重塑资本对机器人 AI 赛道的预期
  • 掌握高质量垂直场景数据的团队,将比单纯做模型微调的团队更具长期价值

七、风险与局限性分析

7.1 当前已知的技术限制

限制具体表现对创业的影响
批处理执行模式模型按 10-30 步的批次规划执行,无法在执行中途重新推理面对动态变化环境(如移动障碍物)时适应性差
批次间不连续每批动作独立规划,切换时可能出现抖动对流畅性要求高的场景(如精细装配)不适用
硬件覆盖有限开箱即用仅支持 SO-100、YAM 双臂、Franka 三种平台面向人形机器人、灵巧手等新平台需额外开发
视觉遮挡问题当夹爪遮挡相机视野时表现下降需要额外的感知冗余设计
精细操控精度极精细操作(如穿针引线)仍超出当前能力高精度场景需结合传统控制方法

7.2 商业风险

  1. 巨头跟进风险:Google、OpenAI 等巨头一旦开源同等或更优的模型,基于 MolmoAct 2 构建的差异化壁垒可能被侵蚀
  2. 许可风险:虽然当前是 Apache 2.0,但 Ai2 作为非营利机构,未来政策变化需持续关注
  3. 数据合规风险:如果应用场景涉及个人隐私环境(如家庭),数据采集和使用需符合当地法规
  4. 硬件供应链风险:SO-100、Franka 等关键硬件的供应稳定性影响产品量产节奏

7.3 模型演进路线预判

根据现有信息,可以合理预期:

  • 训练代码即将开源:Ai2 已明确表示”即将发布训练代码”
  • 更多硬件适配:面向人形机器人的适配已在规划中
  • 持续迭代:初代 MolmoAct 到 MolmoAct 2 仅间隔约 10 个月,迭代速度极快
  • 多模态扩展:可能整合触觉、力觉等多模态感知

八、总结与建议

核心判断

MolmoAct 2 的发布标志着具身 AI(Embodied AI)从实验室研究向实际部署的关键转折点。它不仅仅是一个性能更好的模型,更代表了一种以开放促创新、以推理代黑箱的技术哲学转变。

对创业者而言,这是近两年来机器人 AI 赛道最具实质意义的里程碑事件之一。

行动建议

优先级建议行动时间窗口
🔴 高立即下载并测试 MolmoAct 2,在 SO-100 上跑通基础 demo1-2 周
🔴 高深入研究其 3D 推理中间表示,思考如何利用可解释性做产品差异化2-4 周
🟡 中选定 1-2 个垂直场景,开始积累领域特定的微调数据1-3 个月
🟡 中评估自研数据飞轮策略的可行性,建立数据壁垒持续进行
🟢 低考虑基于 MolmoAct 2-FAST 构建上层开发工具或平台3-6 个月

结语

机器人 AI 赛道正经历从”封闭巨头的游戏”到”开放生态的创新”的范式转移。MolmoAct 2 的开源发布,相当于为所有创业者提供了世界级的技术起跑线。谁能最快理解其 3D 推理范式的精髓,并将其与垂直场景深度结合,谁就能在这个即将爆发的市场中占据先机。


参考资料:

  1. Ai2 官方博客:《MolmoAct 2: An open foundation for robots that work in the real world》(2026.5.5)
  2. GitHub 仓库:allenai/molmoact2
  3. The AI Economy 深度报道:《Ai2’s MolmoAct 2 Is the Open Robot Model Built for the Real World》(2026.5.5)
  4. SiliconANGLE 技术报道(2026.5.5)
  5. arxiv 论文:2605.02881
  6. ProductCool 产品库收录