MolmoAct 2 产品深度分析报告
——面向创业者的 Embodied AI 赛道战略解读
报告日期:2026年5月 | 编制:基于公开资料综合分析
一、产品概览
MolmoAct 2 是由美国艾伦人工智能研究所(Allen Institute for AI,简称 Ai2)于 2026 年 5 月 5 日正式发布的第二代动作推理模型(Action Reasoning Model, ARM)。它是一个面向机器人领域的开源多模态基础模型,属于 VLA(Vision-Language-Action,视觉-语言-动作) 架构的全新范式。
| 核心指标 | 数据 |
|---|---|
| 发布机构 | Allen Institute for AI (Ai2) |
| 发布时间 | 2026年5月5日 |
| 模型参数量 | 约70亿(基于Molmo 2-ER) |
| 推理速度提升 | 相比初代MolmoAct提升 37倍 |
| 单次动作调用延迟 | 基础模型约180ms,启用深度推理约790ms |
| 训练数据规模 | 700+小时双机械臂演示数据(+多源数据集混合) |
| 开源协议 | Apache 2.0 |
| 官方仓库 | github.com/allenai/molmoact2 |
二、技术架构与创新点深度解析
2.1 核心架构范式转移:从”端到端”到”推理-执行”分层架构
传统 VLA 模型(如 RT-2、Octo、π0.5)采用的是端到端映射范式——将像素图像直接映射为离散动作 token。这种方式本质上是一个”黑箱”,模型无法解释自己为什么做出某个动作决策。
MolmoAct 2 的根本性创新在于引入了分层架构:
视觉输入(RGB相机)
↓
感知理解层(Molmo 2-ER 视觉语言模型)
↓
3D空间推理层(Action Reasoning 中间层)
→ 生成3D坐标、位姿、意图的符号化表示
↓
动作执行层(Flow Matching 连续动作专家)
→ 输出精确的机械臂控制轨迹
这一架构的核心价值在于:
-
可解释性:模型在执行动作前,会先生成一个关于”3D空间中要做什么”的中间表示(文本或符号形式),这相当于为机器人的决策过程提供了”思维链”(Chain-of-Thought)。创业者可以借此进行流程审计和错误诊断。
-
纠错能力:通过在推理层检查3D空间意图的合理性,模型可以在动作执行前发现并修正空间错误(如碰撞预判),而非等到机械臂已经撞上障碍物才反应。
-
泛化能力:中间层的3D推理抽象使得模型不依赖于特定任务的像素-动作映射,而是理解了”空间操作的本质逻辑”。
2.2 关键技术模块详解
(1)Molmo 2-ER 推理骨干网络
MolmoAct 2 不是简单地在 Molmo 2 上微调,而是在其专门训练的具身推理变体 Molmo 2-ER基础上构建。该骨干网络在约 300 万个额外的具身推理样本上进行了强化训练,涵盖:
- 基于图像的指向理解
- 物体检测与识别
- 抽象空间推理
- 多图像联合推理
- 基于图像和视频的空间问答
在 13 项具身推理基准测试中,Molmo 2-ER 取得了 63.8/100 的平均分,超越了 GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B、GR-ER 1.5 等业界领先模型。这意味着其”大脑”的感知和理解能力已经达到 SOTA 水平。
(2)自适应深度推理(Adaptive Depth Reasoning)
MolmoAct 2 提供了两个变体:
- MolmoAct 2(基础版):仅使用 RGB 图像输入,通过预训练知识隐式推断3D结构
- MolmoAct 2-Think(深度推理版):引入深度感知 token,显式建模物体距离和3D空间关系
关键创新在于自适应深度路由机制:模型不会为每个图像区域都计算深度信息(这会极大增加延迟),而是仅在动态场景变化区域进行深度预测。这种选择性计算机制带来了 17% 的推理加速,同时保持了深度推理的精度优势。
(3)Flow Matching 连续动作专家
不同于传统将动作离散化为有限 token 的方式,MolmoAct 2 采用流匹配(Flow Matching) 技术生成连续的控制轨迹。这意味着:
- 机械臂运动更加平滑自然(无离散跳跃)
- 控制精度更高(亚毫米级轨迹规划)
- 闭环控制频率更高(支持实时反馈调整)
(4)开放动作分词器 MolmoAct 2-FAST
此前业界广泛使用 Physical Intelligence 的 FAST 分词器,但其训练数据从未开源。MolmoAct 2-FAST 是 Ai2 完全从零训练的开源替代方案,训练数据随模型一并发布。这消除了创业团队对闭源工具链的依赖。
2.3 37倍速度提升的技术路径
推理速度从 MolmoAct 的 6,700ms 降至 MolmoAct 2 的约 180-790ms,实现 37x 加速的技术手段包括:
- 更高效的视觉编码器架构优化
- 动作预测头的参数剪枝与精简
- 视觉-空间数据的高效 token 化策略
- KV Cache 桥接机制(复用已计算的视觉特征,避免重复推理)
- 自适应深度推理减少不必要的计算量
- 优化后的推理内核(Inference Kernels)
这一速度提升具有决定性意义——从”机器人每步动作间有明显停顿”到”近实时环境响应”的质变,直接决定了产品在真实场景中的可用性。
三、性能评估:硬核数据说话
3.1 仿真环境表现
| 基准测试 | MolmoAct 2 | π0.5(Physical Intelligence) | 领先幅度 |
|---|---|---|---|
| MolmoBot(通用操控) | 20.6% | 10.3% | ~2x |
| RoboEval(双臂操控) | 0.443 | 0.405 | +9.4% |
注:MolmoBot 被设计为高难度基准,多数基线模型得分在个位数。
3.2 真实世界零样本测试(Franka 机械臂)
在完全不进行任务专用微调的情况下:
| 任务 | MolmoAct 2 成功率 |
|---|---|
| 苹果放到盘中 | 100%(15/15) |
| 移液管放入托盘 | 86.7% |
| 红色方块放入卷尺中心 | 93.3% |
| 刀具放入盒子 | 93.3% |
| 多物体移入碗中(长程任务) | 62% |
| 平均成功率 | 87.1% |
对比:MolmoBot 平均 48.4%,π0.5 平均 45.2%。MolmoAct 2 在零样本场景下以近 40 个百分点的优势领先。
3.3 第三方权威评估(Cortex AI)
Ai2 委托第三方评估公司 Cortex AI 对 5 个机器人策略进行了系统多轮次对比测试:
| 模型 | 平均得分 |
|---|---|
| MolmoAct 2 | 0.51(第一) |
| OpenVLA-OFT | 0.36 |
| π0.5 | 0.32 |
| Cosmos Policy | 0.16 |
| X-VLA | 0.05 |
MolmoAct 2 在 8 项任务中的 7 项排名第一,包括:试管归位、糖果存储、工具收纳、玩具整理、杯子存储、吸头准备和制作爆米花。
3.4 微调后适应能力
经过针对性微调后,MolmoAct 2 在以下实际任务中表现出色:
- 毛巾折叠
- 碗碟放置
- 桌面擦拭
- 托盘搬运
- 碗碟入水槽
在 LIBERO(衡量模型技能获取与保持能力的基准)中,微调后平均成功率达 97.2%,MolmoAct 2-Think 达到 98.1%,相比初代 MolmoAct 提升约 10-11 个百分点。
四、数据策略与生态布局
4.1 数据集发布策略
Ai2 同步发布了三大数据集,构成完整的数据生态:
| 数据集 | 规模 | 用途 |
|---|---|---|
| MolmoAct 2-Bimanual YAM | 700+小时双机械臂演示 | 双臂协同操控训练与评测 |
| MolmoAct 2 Robotics Datasets | 多源混合(SO-100/SO-101、DROID、BC-Z、Bridge 等) | 通用操控能力训练 |
| Molmo2-ER Datasets | ~300万具身推理样本 | 推理骨干网络预训练 |
核心洞察:MolmoAct 2-Bimanual YAM 是迄今最大的开源双臂桌面操控数据集,数据量是初代 MolmoAct 训练数据的 30 倍以上。数据覆盖毛巾折叠、杂货扫描、智能手机充电、餐桌清理等贴近日常生活的任务。
此外,团队通过开源 VLM 重新标注,将唯一标签数从 ~7.1 万扩充至 ~14.6 万,大幅提升了语言指令的多样性与准确性。
4.2 硬件支持策略
当前即插即用支持三种硬件平台:
- SO-100/SO-101:低成本开源机械臂(推荐标准手腕配置 + 第三人称相机)
- Bimanual YAM 双臂系统:参考设计已公开,含完整的零件清单和接线方案(Intel RealSense D435 + D405 相机阵列)
- Franka Emika:遵循官方 DROID 实现方案
关键声明:模型本身是**硬件无关(hardware-agnostic)**的,输出标准化的 3D 轨迹和动作意图,可通过统一控制接口适配不同平台。但对新平台(如人形机器人、灵巧手)仍需额外训练数据。
4.3 开源许可证与定位
- Apache 2.0 许可证:允许商业使用、修改和再分发
- 定位:明确标注为”研究与教育用途”,符合 Ai2 负责任使用指南
- 配套提供了参考硬件方案、LeRobot v3.0 格式数据加载工具链,降低了入门门槛
五、竞争格局分析
5.1 与主要竞品的对比
| 维度 | MolmoAct 2 | π0.5 (Physical Intelligence) | RT-2 / Octo |
|---|---|---|---|
| 开源程度 | 完全开源(权重+数据+工具链) | 闭源 | 部分开源 |
| 推理架构 | 3D 推理中间层(分层可解释) | 端到端映射 | 端到端映射 |
| 推理速度 | 180-790ms | 未公开 | 较高延迟 |
| 双臂操控 | 原生支持(零微调) | 需要微调 | 需要微调 |
| 模型规模 | ~7B | 未公开 | varies |
| 基准表现 | 领先 | 第二 | 中等 |
| 训练数据策略 | 700h+ 自采 + 多源混合 | 未公开数据 | 多源混合 |
5.2 DeepSeek 式范式转移的类比
Ai2 研究员贾飞迪(Jiafei Duan)明确将 MolmoAct 2 的发布类比为机器人领域的”DeepSeek 时刻”——证明通过更开放、更高效的方法,可以用更少的数据达到甚至超越闭源巨头的性能。这一类比对创业者具有深刻的战略启示:
“我们证明了可以用显著更少的数据、更开放的方式,达到可比的性能,使其他人能够轻松地在我们的模型基础上构建自己的工作流程。“
5.3 行业定位
当前机器人基础模型市场的竞争格局:
闭源阵营:Physical Intelligence (π0.5, 获数十亿美元投资) → 性能领先但不可定制
Google RT-2/RTC → 强大但绑定谷歌生态
Tesla Optimus → 垂直整合
开源阵营:MolmoAct 2 (Ai2) → 当前开源 SOTA,强调可解释性
OpenVLA → 开源但性能次之
RT-1/RVT → 早期开源方案
MolmoAct 2 的差异化定位:在保持完全开源的同时,在推理速度、任务成功率和架构可解释性三个维度上同时领先,为创业团队提供了”不依赖巨头也能构建高性能机器人 AI”的技术基础。
六、创业机会分析
6.1 直接价值主张
对于考虑进入机器人 AI 赛道的创业者,MolmoAct 2 的释放意味着:
- 大幅降低技术门槛:无需从头训练千亿参数模型,基于开源权重即可启动产品开发
- 显著降低数据成本:700+小时高质量双臂数据 + 多源数据集混合,覆盖了最常见的桌面操控场景
- 快速原型验证:参考硬件方案明确,SO-100 等低成本硬件即可跑通完整 pipeline
- 性能基准已验证:在仿真、零样本部署、第三方评测三个维度均取得 SOTA,技术方案可行性已获验证
6.2 潜在应用场景
基于 MolmoAct 2 的核心能力,以下场景具备高商业化潜力:
🔬 科研与医疗自动化
- 湿实验室自动化(已在斯坦福 Cong Lab 验证 CRISPR 实验流程)
- 样本处理与检测设备操作
- 高通量实验平台
🏠 家庭服务机器人
- 厨房操作(烹饪辅助、餐具清理)
- 日常整理(衣物折叠、物品收纳)
- 老年人照护辅助
🏭 轻工业与柔性制造
- 小批量定制化生产线的快速切换
- 产品组装与质检
- 仓储分拣(桌面级)
🍽️ 餐饮与服务业
- 咖啡拉花与饮品制作
- 餐桌清理与布置
- 食材预处理
6.3 商业化路径建议
| 路径 | 优势 | 风险 |
|---|---|---|
| 基于 MolmoAct 2 做场景微调 | 开发周期短,技术风险低 | 需要垂直领域数据积累 |
| 构建数据飞轮 | 数据壁垒一旦建立便形成护城河 | 前期数据采集成本高昂 |
| 提供端到端机器人 AI 解决方案 | 价值链条长,利润率可观 | 需要硬件集成与现场部署能力 |
| 开发配套工具链/中间件 | 轻资产模式,易于规模化 | 竞争激烈,需要差异化定位 |
6.4 投资视角的估值锚点
- Physical Intelligence(闭源)已获数十亿美元级别投资,估值极高
- MolmoAct 2 证明了开源路线可以达到同等性能,这会重塑资本对机器人 AI 赛道的预期
- 掌握高质量垂直场景数据的团队,将比单纯做模型微调的团队更具长期价值
七、风险与局限性分析
7.1 当前已知的技术限制
| 限制 | 具体表现 | 对创业的影响 |
|---|---|---|
| 批处理执行模式 | 模型按 10-30 步的批次规划执行,无法在执行中途重新推理 | 面对动态变化环境(如移动障碍物)时适应性差 |
| 批次间不连续 | 每批动作独立规划,切换时可能出现抖动 | 对流畅性要求高的场景(如精细装配)不适用 |
| 硬件覆盖有限 | 开箱即用仅支持 SO-100、YAM 双臂、Franka 三种平台 | 面向人形机器人、灵巧手等新平台需额外开发 |
| 视觉遮挡问题 | 当夹爪遮挡相机视野时表现下降 | 需要额外的感知冗余设计 |
| 精细操控精度 | 极精细操作(如穿针引线)仍超出当前能力 | 高精度场景需结合传统控制方法 |
7.2 商业风险
- 巨头跟进风险:Google、OpenAI 等巨头一旦开源同等或更优的模型,基于 MolmoAct 2 构建的差异化壁垒可能被侵蚀
- 许可风险:虽然当前是 Apache 2.0,但 Ai2 作为非营利机构,未来政策变化需持续关注
- 数据合规风险:如果应用场景涉及个人隐私环境(如家庭),数据采集和使用需符合当地法规
- 硬件供应链风险:SO-100、Franka 等关键硬件的供应稳定性影响产品量产节奏
7.3 模型演进路线预判
根据现有信息,可以合理预期:
- 训练代码即将开源:Ai2 已明确表示”即将发布训练代码”
- 更多硬件适配:面向人形机器人的适配已在规划中
- 持续迭代:初代 MolmoAct 到 MolmoAct 2 仅间隔约 10 个月,迭代速度极快
- 多模态扩展:可能整合触觉、力觉等多模态感知
八、总结与建议
核心判断
MolmoAct 2 的发布标志着具身 AI(Embodied AI)从实验室研究向实际部署的关键转折点。它不仅仅是一个性能更好的模型,更代表了一种以开放促创新、以推理代黑箱的技术哲学转变。
对创业者而言,这是近两年来机器人 AI 赛道最具实质意义的里程碑事件之一。
行动建议
| 优先级 | 建议行动 | 时间窗口 |
|---|---|---|
| 🔴 高 | 立即下载并测试 MolmoAct 2,在 SO-100 上跑通基础 demo | 1-2 周 |
| 🔴 高 | 深入研究其 3D 推理中间表示,思考如何利用可解释性做产品差异化 | 2-4 周 |
| 🟡 中 | 选定 1-2 个垂直场景,开始积累领域特定的微调数据 | 1-3 个月 |
| 🟡 中 | 评估自研数据飞轮策略的可行性,建立数据壁垒 | 持续进行 |
| 🟢 低 | 考虑基于 MolmoAct 2-FAST 构建上层开发工具或平台 | 3-6 个月 |
结语
机器人 AI 赛道正经历从”封闭巨头的游戏”到”开放生态的创新”的范式转移。MolmoAct 2 的开源发布,相当于为所有创业者提供了世界级的技术起跑线。谁能最快理解其 3D 推理范式的精髓,并将其与垂直场景深度结合,谁就能在这个即将爆发的市场中占据先机。
参考资料:
- Ai2 官方博客:《MolmoAct 2: An open foundation for robots that work in the real world》(2026.5.5)
- GitHub 仓库:allenai/molmoact2
- The AI Economy 深度报道:《Ai2’s MolmoAct 2 Is the Open Robot Model Built for the Real World》(2026.5.5)
- SiliconANGLE 技术报道(2026.5.5)
- arxiv 论文:2605.02881
- ProductCool 产品库收录