基准测试（Benchmarks）

GenManip 原生支持由 GenManip 团队和社区贡献者共同开发的一系列 基准测试（Benchmarks）。下面是对每个基准测试的详细介绍。

如果你基于 GenManip 构建了自己的基准测试，我们非常欢迎你向官方仓库提交 issue。在提交时，请包含以下内容：

基准测试的名称
简短的描述（可以附上你项目的外部链接）
对应的 资源链接（可直接在 download_assets.py 中修改）
对应的 配置文件（config file）
如果你的基准来源于某篇论文，请附上引用信息。

对于全部的基准，我们都已经支持了在 client.py 中输出空 action 来确保基准测试的正常运行。这些内容也是重要的参考，你可以通过它们观察 Benchmark 所需要的 action 输出格式。

GenManip Scaling Pick-and-Place Benchmark

GenManip Scaling Pick-and-Place Benchmark（GenManip 规模化抓放基准） 旨在评估模型在大量物体与任务场景中的 泛化能力（generalization ability）。该基准包含使用 Objaverse 资产随机生成的 200 个可执行场景，均经过验证可稳定运行。

该基准测试用于验证模型在跨场景、跨物体任务中的一致性表现，是评估通用操作策略（General Manipulation Policy）的重要指标。

Package ID

Quick Start

Start Server

python ray_eval_server.py -cfg GenManipSuite/GenManip-Package-OOC_Bench

Run Evaluation

python standalone_tools/client.py --worker_ids 0 --gripper_type robotiq

Training Dataset: Axi404/GenManip-Dataset-OOC_Bench

Citations

GenManip: Scaling Data-Driven Robot Manipulation with Large-Scale Simulation and Generative Models

GenManip Team

CVPR, 2025

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

InternRobotics Team

TechReport, 2025

GenManip Tabletop10 Benchmark

IROS 2025 Challenge of Multimodal Robot Learning in InternUtopia and Real World（IROS 2025 多模态机器人学习挑战赛） 基于 GenManip 构建，构成了 Manipulation Track（操作任务赛道）的核心部分。它同时兼容 InternManip 框架。 GenManip 原生集成了这些基准。