MolmoAct 2 产品深度分析报告

——面向创业者的 Embodied AI 赛道战略解读

报告日期：2026年5月 | 编制：基于公开资料综合分析

一、产品概览

MolmoAct 2 是由美国艾伦人工智能研究所（Allen Institute for AI，简称 Ai2）于 2026 年 5 月 5 日正式发布的第二代动作推理模型（Action Reasoning Model, ARM）。它是一个面向机器人领域的开源多模态基础模型，属于 VLA（Vision-Language-Action，视觉-语言-动作） 架构的全新范式。

核心指标	数据
发布机构	Allen Institute for AI (Ai2)
发布时间	2026年5月5日
模型参数量	约70亿（基于Molmo 2-ER）
推理速度提升	相比初代MolmoAct提升 37倍
单次动作调用延迟	基础模型约180ms，启用深度推理约790ms
训练数据规模	700+小时双机械臂演示数据（+多源数据集混合）
开源协议	Apache 2.0
官方仓库	github.com/allenai/molmoact2

二、技术架构与创新点深度解析

2.1 核心架构范式转移：从”端到端”到”推理-执行”分层架构

传统 VLA 模型（如 RT-2、Octo、π0.5）采用的是端到端映射范式——将像素图像直接映射为离散动作 token。这种方式本质上是一个”黑箱”，模型无法解释自己为什么做出某个动作决策。

MolmoAct 2 的根本性创新在于引入了分层架构：

视觉输入（RGB相机）
    ↓
感知理解层（Molmo 2-ER 视觉语言模型）
    ↓
3D空间推理层（Action Reasoning 中间层）
    → 生成3D坐标、位姿、意图的符号化表示
    ↓
动作执行层（Flow Matching 连续动作专家）
    → 输出精确的机械臂控制轨迹

这一架构的核心价值在于：

可解释性：模型在执行动作前，会先生成一个关于”3D空间中要做什么”的中间表示（文本或符号形式），这相当于为机器人的决策过程提供了”思维链”（Chain-of-Thought）。创业者可以借此进行流程审计和错误诊断。
纠错能力：通过在推理层检查3D空间意图的合理性，模型可以在动作执行前发现并修正空间错误（如碰撞预判），而非等到机械臂已经撞上障碍物才反应。
泛化能力：中间层的3D推理抽象使得模型不依赖于特定任务的像素-动作映射，而是理解了”空间操作的本质逻辑”。

2.2 关键技术模块详解

（1）Molmo 2-ER 推理骨干网络

MolmoAct 2 不是简单地在 Molmo 2 上微调，而是在其专门训练的具身推理变体 Molmo 2-ER基础上构建。该骨干网络在约 300 万个额外的具身推理样本上进行了强化训练，涵盖：

基于图像的指向理解
物体检测与识别
抽象空间推理
多图像联合推理
基于图像和视频的空间问答

在 13 项具身推理基准测试中，Molmo 2-ER 取得了 63.8/100 的平均分，超越了 GPT-5、Gemini 2.5 Pro、Qwen3-VL-8B、GR-ER 1.5 等业界领先模型。这意味着其”大脑”的感知和理解能力已经达到 SOTA 水平。

（2）自适应深度推理（Adaptive Depth Reasoning）

MolmoAct 2 提供了两个变体：

MolmoAct 2（基础版）：仅使用 RGB 图像输入，通过预训练知识隐式推断3D结构
MolmoAct 2-Think（深度推理版）：引入深度感知 token，显式建模物体距离和3D空间关系

关键创新在于自适应深度路由机制：模型不会为每个图像区域都计算深度信息（这会极大增加延迟），而是仅在动态场景变化区域进行深度预测。这种选择性计算机制带来了 17% 的推理加速，同时保持了深度推理的精度优势。

（3）Flow Matching 连续动作专家

不同于传统将动作离散化为有限 token 的方式，MolmoAct 2 采用流匹配（Flow Matching） 技术生成连续的控制轨迹。这意味着：

机械臂运动更加平滑自然（无离散跳跃）
控制精度更高（亚毫米级轨迹规划）
闭环控制频率更高（支持实时反馈调整）

（4）开放动作分词器 MolmoAct 2-FAST

此前业界广泛使用 Physical Intelligence 的 FAST 分词器，但其训练数据从未开源。MolmoAct 2-FAST 是 Ai2 完全从零训练的开源替代方案，训练数据随模型一并发布。这消除了创业团队对闭源工具链的依赖。

2.3 37倍速度提升的技术路径

推理速度从 MolmoAct 的 6,700ms 降至 MolmoAct 2 的约 180-790ms，实现 37x 加速的技术手段包括：

更高效的视觉编码器架构优化
动作预测头的参数剪枝与精简
视觉-空间数据的高效 token 化策略
KV Cache 桥接机制（复用已计算的视觉特征，避免重复推理）
自适应深度推理减少不必要的计算量
优化后的推理内核（Inference Kernels）

这一速度提升具有决定性意义——从”机器人每步动作间有明显停顿”到”近实时环境响应”的质变，直接决定了产品在真实场景中的可用性。

三、性能评估：硬核数据说话

3.1 仿真环境表现

基准测试	MolmoAct 2	π0.5（Physical Intelligence）	领先幅度
MolmoBot（通用操控）	20.6%	10.3%	~2x
RoboEval（双臂操控）	0.443	0.405	+9.4%

注：MolmoBot 被设计为高难度基准，多数基线模型得分在个位数。

3.2 真实世界零样本测试（Franka 机械臂）

在完全不进行任务专用微调的情况下：

任务	MolmoAct 2 成功率
苹果放到盘中	100%（15/15）
移液管放入托盘	86.7%
红色方块放入卷尺中心	93.3%
刀具放入盒子	93.3%
多物体移入碗中（长程任务）	62%
平均成功率	87.1%

对比：MolmoBot 平均 48.4%，π0.5 平均 45.2%。MolmoAct 2 在零样本场景下以近 40 个百分点的优势领先。

3.3 第三方权威评估（Cortex AI）

Ai2 委托第三方评估公司 Cortex AI 对 5 个机器人策略进行了系统多轮次对比测试：

模型	平均得分
MolmoAct 2	0.51（第一）
OpenVLA-OFT	0.36
π0.5	0.32
Cosmos Policy	0.16
X-VLA	0.05

MolmoAct 2 在 8 项任务中的 7 项排名第一，包括：试管归位、糖果存储、工具收纳、玩具整理、杯子存储、吸头准备和制作爆米花。

3.4 微调后适应能力

经过针对性微调后，MolmoAct 2 在以下实际任务中表现出色：

毛巾折叠
碗碟放置
桌面擦拭
托盘搬运
碗碟入水槽

在 LIBERO（衡量模型技能获取与保持能力的基准）中，微调后平均成功率达 97.2%，MolmoAct 2-Think 达到 98.1%，相比初代 MolmoAct 提升约 10-11 个百分点。

四、数据策略与生态布局

4.1 数据集发布策略

Ai2 同步发布了三大数据集，构成完整的数据生态：

数据集	规模	用途
MolmoAct 2-Bimanual YAM	700+小时双机械臂演示	双臂协同操控训练与评测
MolmoAct 2 Robotics Datasets	多源混合（SO-100/SO-101、DROID、BC-Z、Bridge 等）	通用操控能力训练
Molmo2-ER Datasets	~300万具身推理样本	推理骨干网络预训练

核心洞察：MolmoAct 2-Bimanual YAM 是迄今最大的开源双臂桌面操控数据集，数据量是初代 MolmoAct 训练数据的 30 倍以上。数据覆盖毛巾折叠、杂货扫描、智能手机充电、餐桌清理等贴近日常生活的任务。

此外，团队通过开源 VLM 重新标注，将唯一标签数从 ~7.1 万扩充至 ~14.6 万，大幅提升了语言指令的多样性与准确性。

4.2 硬件支持策略

当前即插即用支持三种硬件平台：

SO-100/SO-101：低成本开源机械臂（推荐标准手腕配置 + 第三人称相机）
Bimanual YAM 双臂系统：参考设计已公开，含完整的零件清单和接线方案（Intel RealSense D435 + D405 相机阵列）
Franka Emika：遵循官方 DROID 实现方案

关键声明：模型本身是**硬件无关（hardware-agnostic）**的，输出标准化的 3D 轨迹和动作意图，可通过统一控制接口适配不同平台。但对新平台（如人形机器人、灵巧手）仍需额外训练数据。

4.3 开源许可证与定位

Apache 2.0 许可证：允许商业使用、修改和再分发
定位：明确标注为”研究与教育用途”，符合 Ai2 负责任使用指南
配套提供了参考硬件方案、LeRobot v3.0 格式数据加载工具链，降低了入门门槛

五、竞争格局分析

5.1 与主要竞品的对比

维度	MolmoAct 2	π0.5 (Physical Intelligence)	RT-2 / Octo
开源程度	完全开源（权重+数据+工具链）	闭源	部分开源
推理架构	3D 推理中间层（分层可解释）	端到端映射	端到端映射
推理速度	180-790ms	未公开	较高延迟
双臂操控	原生支持（零微调）	需要微调	需要微调
模型规模	~7B	未公开	varies
基准表现	领先	第二	中等
训练数据策略	700h+ 自采 + 多源混合	未公开数据	多源混合

5.2 DeepSeek 式范式转移的类比

Ai2 研究员贾飞迪（Jiafei Duan）明确将 MolmoAct 2 的发布类比为机器人领域的”DeepSeek 时刻”——证明通过更开放、更高效的方法，可以用更少的数据达到甚至超越闭源巨头的性能。这一类比对创业者具有深刻的战略启示：

“我们证明了可以用显著更少的数据、更开放的方式，达到可比的性能，使其他人能够轻松地在我们的模型基础上构建自己的工作流程。“

5.3 行业定位

当前机器人基础模型市场的竞争格局：

闭源阵营：Physical Intelligence (π0.5, 获数十亿美元投资) → 性能领先但不可定制
          Google RT-2/RTC → 强大但绑定谷歌生态
          Tesla Optimus → 垂直整合

开源阵营：MolmoAct 2 (Ai2) → 当前开源 SOTA，强调可解释性
          OpenVLA → 开源但性能次之
          RT-1/RVT → 早期开源方案

MolmoAct 2 的差异化定位：在保持完全开源的同时，在推理速度、任务成功率和架构可解释性三个维度上同时领先，为创业团队提供了”不依赖巨头也能构建高性能机器人 AI”的技术基础。

六、创业机会分析

6.1 直接价值主张

对于考虑进入机器人 AI 赛道的创业者，MolmoAct 2 的释放意味着：

大幅降低技术门槛：无需从头训练千亿参数模型，基于开源权重即可启动产品开发
显著降低数据成本：700+小时高质量双臂数据 + 多源数据集混合，覆盖了最常见的桌面操控场景
快速原型验证：参考硬件方案明确，SO-100 等低成本硬件即可跑通完整 pipeline
性能基准已验证：在仿真、零样本部署、第三方评测三个维度均取得 SOTA，技术方案可行性已获验证

6.2 潜在应用场景

基于 MolmoAct 2 的核心能力，以下场景具备高商业化潜力：

🔬 科研与医疗自动化

湿实验室自动化（已在斯坦福 Cong Lab 验证 CRISPR 实验流程）
样本处理与检测设备操作
高通量实验平台

🏠 家庭服务机器人

厨房操作（烹饪辅助、餐具清理）
日常整理（衣物折叠、物品收纳）
老年人照护辅助

🏭 轻工业与柔性制造

小批量定制化生产线的快速切换
产品组装与质检
仓储分拣（桌面级）

🍽️ 餐饮与服务业

咖啡拉花与饮品制作
餐桌清理与布置
食材预处理

6.3 商业化路径建议

路径	优势	风险
基于 MolmoAct 2 做场景微调	开发周期短，技术风险低	需要垂直领域数据积累
构建数据飞轮	数据壁垒一旦建立便形成护城河	前期数据采集成本高昂
提供端到端机器人 AI 解决方案	价值链条长，利润率可观	需要硬件集成与现场部署能力
开发配套工具链/中间件	轻资产模式，易于规模化	竞争激烈，需要差异化定位

6.4 投资视角的估值锚点

Physical Intelligence（闭源）已获数十亿美元级别投资，估值极高
MolmoAct 2 证明了开源路线可以达到同等性能，这会重塑资本对机器人 AI 赛道的预期
掌握高质量垂直场景数据的团队，将比单纯做模型微调的团队更具长期价值

七、风险与局限性分析

7.1 当前已知的技术限制

限制	具体表现	对创业的影响
批处理执行模式	模型按 10-30 步的批次规划执行，无法在执行中途重新推理	面对动态变化环境（如移动障碍物）时适应性差
批次间不连续	每批动作独立规划，切换时可能出现抖动	对流畅性要求高的场景（如精细装配）不适用
硬件覆盖有限	开箱即用仅支持 SO-100、YAM 双臂、Franka 三种平台	面向人形机器人、灵巧手等新平台需额外开发
视觉遮挡问题	当夹爪遮挡相机视野时表现下降	需要额外的感知冗余设计
精细操控精度	极精细操作（如穿针引线）仍超出当前能力	高精度场景需结合传统控制方法

7.2 商业风险

巨头跟进风险：Google、OpenAI 等巨头一旦开源同等或更优的模型，基于 MolmoAct 2 构建的差异化壁垒可能被侵蚀
许可风险：虽然当前是 Apache 2.0，但 Ai2 作为非营利机构，未来政策变化需持续关注
数据合规风险：如果应用场景涉及个人隐私环境（如家庭），数据采集和使用需符合当地法规
硬件供应链风险：SO-100、Franka 等关键硬件的供应稳定性影响产品量产节奏

7.3 模型演进路线预判

根据现有信息，可以合理预期：

训练代码即将开源：Ai2 已明确表示”即将发布训练代码”
更多硬件适配：面向人形机器人的适配已在规划中
持续迭代：初代 MolmoAct 到 MolmoAct 2 仅间隔约 10 个月，迭代速度极快
多模态扩展：可能整合触觉、力觉等多模态感知

八、总结与建议

核心判断

MolmoAct 2 的发布标志着具身 AI（Embodied AI）从实验室研究向实际部署的关键转折点。它不仅仅是一个性能更好的模型，更代表了一种以开放促创新、以推理代黑箱的技术哲学转变。

对创业者而言，这是近两年来机器人 AI 赛道最具实质意义的里程碑事件之一。

行动建议

优先级	建议行动	时间窗口
🔴 高	立即下载并测试 MolmoAct 2，在 SO-100 上跑通基础 demo	1-2 周
🔴 高	深入研究其 3D 推理中间表示，思考如何利用可解释性做产品差异化	2-4 周
🟡 中	选定 1-2 个垂直场景，开始积累领域特定的微调数据	1-3 个月
🟡 中	评估自研数据飞轮策略的可行性，建立数据壁垒	持续进行
🟢 低	考虑基于 MolmoAct 2-FAST 构建上层开发工具或平台	3-6 个月

结语

机器人 AI 赛道正经历从”封闭巨头的游戏”到”开放生态的创新”的范式转移。MolmoAct 2 的开源发布，相当于为所有创业者提供了世界级的技术起跑线。谁能最快理解其 3D 推理范式的精髓，并将其与垂直场景深度结合，谁就能在这个即将爆发的市场中占据先机。

参考资料：

Ai2 官方博客：《MolmoAct 2: An open foundation for robots that work in the real world》（2026.5.5）
GitHub 仓库：allenai/molmoact2
The AI Economy 深度报道：《Ai2’s MolmoAct 2 Is the Open Robot Model Built for the Real World》（2026.5.5）
SiliconANGLE 技术报道（2026.5.5）
arxiv 论文：2605.02881
ProductCool 产品库收录