基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP,国防科大仿真工程



在现代工业物流与机器人自动化中,三维装箱问题(3D-BPP)的物理可行性与具身可执行性是决定算法能否真正落地的关键因素。随着工业自动化水平不断提高,「在线装箱」问题正受到越来越多关注。然而现有研究在问题设定、测试数据、评估指标等方面差异巨大,且不少先进算法尚未开源,导致研究社区缺乏一个能够公平、系统评估算法性能与真实可用性的统一基准体系。

在真实硬件上直接评估成本高、周期长,因此仿真环境成为验证算法物理可行性的必然选择。但多数现有研究仍将 3D-BPP 理解为数学优化问题,仅强调如「空间利用率」等紧凑度指标,而忽略重力、摩擦、碰撞等关键物理因素,使得算法一旦部署到现实场景便可能失效。

而具身可执行性最终要落脚到机器人与每一个箱体的交互,需要考虑机器人末端执行器是否可达目标位姿、是否存在机器人抓取箱体摆放过程的无碰撞运动路径、是否满足机器人末端执行器抓取的约束等问题。此外,许多研究依赖的仍是与工业分布不一致的合成数据集,导致算法在具身执行层面的难度被系统性低估,使得其结论缺乏现实可信度。

为解决这些痛点,国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出RoboBPP——一个基于真实工业数据、物理仿真与具身执行建模的机器人在线装箱的综合基准系统。RoboBPP内置基于物理的高逼真仿真器,并在仿真环境中引入真实尺度的箱体与工业机械臂,完整复现工业装箱流程。通过模拟真实工业条件,RoboBPP能够有效评估算法在现实部署中的物理可行性与具身可执行性。



本文的核心贡献如下:



项目主页(如下图)对 RoboBPP 的细节进行了全面展示。其中 Benchmarks 栏目提供了多类榜单,包括算法整体表现排名、三种测试设置与三个数据集下的各项指标表现,以及每种算法在测试过程中的详细数据。Documentation 栏目介绍了数据集、测试设置与评估指标的详细说明,并提供了开源仿真环境 Python 包的安装与使用指南。读者可在 Download 栏目下载三类数据集,在 Submit 栏目提交算法进行测试。

packsim



基于物理的仿真环境

由于在真实硬件上进行测试成本高、操作复杂,团队构建了一个用于评估物理可行性的仿真环境。其核心挑战在于打造一个足够逼真的模拟器,以确保所评估的算法在真实工业场景中也能可靠运行。

受实际工业装箱流程启发,团队在 PyBullet 环境中引入了按真实尺度建模的工业机械臂与箱体,并设计了一套具备物理依据的参数,使箱体与机械臂均能在仿真中得到精确复现。该模拟器能够再现多种真实工业条件:例如,通过重力和摩擦建模模拟由不稳定堆叠引发的坍塌;使用 OMPL 运动规划库生成机械臂的无碰撞轨迹;支持机械臂执行抓取、搬运与放置等完整操作流程。通过机械臂与箱体的交互来探索机器人够不够得到的问题,验证算法的具身可执行性。

整个仿真环境已作为 Python 包开源于 PyPI。用户可按照官方文档运行与体验完整仿真流程。

packsim

真实工业流程数据集

为了构建一个全面的基准体系,覆盖多样化的工业场景至关重要。真实工业流程数据集通过刻画实际生产中的物品尺寸、形状与到达顺序,决定了机器人在抓取、搬运与放置过程中所面临的具身执行难度,是评估算法具身可执行性的前提条件。该团队对典型工业流程进行了系统分析,并识别出三类具有代表性的任务场景。

第一类场景来自流水线式生产,箱体尺寸高度重复、变化较小,由此构建了Repetitive Dataset。第二类场景对应物流分拣与装箱任务,箱体尺寸具有较大的多样性和波动性,形成了Diverse Dataset。第三类场景涉及形状不规则或细长的箱体,其放置难度更高,例如长条形板材,于是构建了Wood Board Dataset。



科学设计的多级测试设置

该团队设计了三种逐级递进的测试设置,用于在不断提升物理真实度的条件下评估算法的适应性和稳健性。

Math Pack:仅进行纯几何放置,不涉及物理效应或机械臂操作,对应理想化、去具身设置,主要用于评估算法的空间推理与几何规划能力。

Physics Pack:在几何放置的基础上引入重力、碰撞等物理模拟,但不包含机械臂执行,用于评估算法在具身物理约束下的有效性,例如堆叠稳定性、接触关系与平衡性。

Execution Pack:最接近真实部署的评估设置,完整引入具身执行过程,结合物理仿真与工业机械臂操作,包括运动规划与控制。在该设置下,算法性能不仅取决于放置策略本身,还取决于机器人运动学可达性、无碰撞轨迹规划以及执行过程中的动态稳定性。



多维度评估指标及归一化评分体系

该团队在总结以往研究常用的评估指标(主要关注紧凑性、稳定性和推理效率)的基础上,借助物理仿真环境引入了新的执行相关指标,包括 Collapsed Placement 和 Dangerous Operation。这些指标能够反映放置过程中可能出现的坍塌风险与潜在危险操作。为了在多维指标上系统地比较不同算法,该团队进一步设计了一个评分体系,将所有指标转换为归一化分数,并根据需求进行加权汇总,最终得到综合得分。



实验评估

除了构建完整的基准系统外,团队还复现了多种代表性算法,并进行了丰富的实验。在三种测试设置和三个数据集下进行了统一评测,并通过设计的评分系统汇总实验结果,计算每个算法的综合得分,对所有方法在不同测试设置和数据集上的表现进行了排序(表格中已高亮标出综合得分排名前四的算法)。另外,还开展了跨数据集与测试设置的性能对比分析,以深入理解算法在不同工业场景下的泛化能力与稳健性。



基于实验结果,团队为工业部署提供了实用建议:

团队对 Occupancy、Trajectory Length 和 Collapsed Placement 等单指标进行了分析。通过分别考察这些指标,可以揭示整体评分中无法体现的性能特征,并识别出哪些算法设计在特定操作环节中表现突出,从而为实际装箱任务中的算法选择提供指导。





此外,团队还评估了稳定性相关指标(Static Stability 和 Local Stability)在模型训练中的有效性,探索其能否引导基于学习的方法获得更加稳健、物理上可行的策略,为算法在现实工业场景中的具身部署提供依据。

结语

国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出的RoboBPP是首个面向机器人在线三维装箱任务的综合基准系统,核心特色在于结合真实工业数据、物理仿真与具身执行评估。不同于以往仅将三维装箱视为数学优化问题的研究,RoboBPP能够在高逼真的物理仿真环境中重现真实工业装箱流程,考察物理可行性与具身可执行性,从而提供更可靠、更贴近现实的算法评估。该系统完全开源,配备可视化工具和在线排行榜,为未来相关研究与工业应用提供了可复现、可扩展的具身评估基础。


nginx