CheckManual
收藏arXiv2025-06-11 更新2025-06-13 收录
下载链接:
https://sites.google.com/view/checkmanual
下载链接
链接失效反馈官方服务:
资源简介:
CheckManual是一个基于手册的家电操作数据集,由北京大学计算机科学技术系和PKU-Agibot实验室创建。该数据集旨在解决现有家电操作研究中忽视手册重要性、无法理解多页手册的问题。数据集包含家电的CAD模型和对应的手册,共收集了11类、182个家电的CAD模型。每个CAD模型都通过人工验证和大型语言模型辅助,生成包含不同部件功能、操作演示和页面布局的多样化家电手册。此外,数据集还设置了三个基于手册的家电操作挑战赛道,包括操作规划、CAD辅助操作和无CAD操作,以全面评估模型在手册辅助下操作家电的能力。
CheckManual is a manual-based household appliance operation dataset developed by the Department of Computer Science and Technology, Peking University and the PKU-Agibot Lab. This dataset aims to address the key limitations of existing household appliance operation research: neglecting the importance of operation manuals and lacking the ability to comprehend multi-page manuals. The dataset includes CAD models and their corresponding manuals for household appliances, with a total of 182 CAD models spanning 11 categories collected. For each CAD model, diversified appliance manuals covering functions of various components, operation demonstrations and page layouts are generated via manual verification and assistance from large language models (LLMs). Additionally, the dataset sets up three manual-based household appliance operation challenge tracks, namely operation planning, CAD-aided operation and CAD-free operation, to comprehensively evaluate the capability of models to operate household appliances with the assistance of manuals.
提供机构:
北京大学计算机科学技术系
创建时间:
2025-06-11
原始信息汇总
CheckManual 数据集概述
基本信息
- 数据集名称: CheckManual
- 发布会议: CVPR 2025 Highlight
- 作者: Yuxing Long, Jiyao Zhang, Mingjie Pan, Tianshu Wu, Taewhan Kim, Hao Dong
- 机构: CFCS, School of Computer Science, Peking University | PKU-Agibot Lab
- 相关资源: Paper | Code | Dataset
数据集简介
CheckManual 是首个基于手册的家电操作基准数据集,旨在通过家电手册学习组件功能、交互方法和代表性任务步骤。数据集通过大型模型辅助人工修订的数据生成流程创建,包含基于CAD家电模型的手册生成、任务设计和图形设计。
数据生成流程
- 分析真实手册:学习手册格式并收集不同类别的家电CAD模型。
- 创建手册材料:
- 家电创建
- 任务生成
- 图形设计
- 人工验证:确保每一步的正确性。
- 生成手册:通过LaTeX生成多样化格式的家电手册。
基准任务
- 任务类型: 基于手册的操作规划
- 评估内容: 模型性能评估
- 基准模型: ManualPlan(包含手册解析、操作规划和部件对齐模块)
应用场景
- 家电操作规划
- 机器人操作学习
- 多页手册理解
搜集汇总
数据集介绍

构建方式
CheckManual数据集的构建采用了大规模模型辅助与人工修订相结合的创新流程。研究团队首先基于CAD电器模型,通过多模态大语言模型对可操作部件进行功能命名和状态标注,随后利用大语言模型生成多样化的操作任务。为确保数据准确性,每个生成环节均经过严格的人工验证,包括2200余个部件功能标注和1400多项操作任务的审查。数据集最终通过LaTeX代码自动编译生成具有多样化版式的电器说明书PDF文档,涵盖11类日常家电的369个模型。
特点
该数据集具有三大核心特征:多模态对齐性(文本说明书与CAD模型精确对应)、任务复杂性(包含单步骤至18步长程操作任务)以及工业级真实性(严格遵循真实说明书的版式规范)。特别值得注意的是,数据集提供了12种可操作部件的详细功能描述,平均每个电器包含6个可交互部件,且每个部件的状态变化(如旋钮角度、按钮按压次数)均配有精确的数值定义,为机器人操作提供了细粒度的执行标准。
使用方法
CheckManual设计了三级渐进式评估体系:初级Track1测试说明书与CAD模型的对齐规划能力,中级Track2考察基于CAD模型的物理操作,高级Track3挑战纯说明书引导的真实场景操作。使用时需将PDF说明书通过OCR转换为结构化数据,结合开源机器人仿真环境SAPIEN进行任务执行评估。评估指标采用独特的双层级体系,既包含任务级成功率,也细化到每个操作步骤的关节运动精度检测(如旋转部件±30°容错范围)。
背景与挑战
背景概述
CheckManual数据集由北京大学CFCS和PKU-Agibot实验室的研究团队于2025年提出,旨在解决机器人基于说明书操作家电的核心挑战。随着家电在人类生活中的普及,其复杂功能超越了锤子等简单工具的常识操作范畴。该数据集创新性地通过CAD模型生成对齐的电器说明书,建立了包含11类家电、369个模型的测试基准,填补了传统NLP领域说明书问答任务与机器人操作任务之间的研究空白。其提出的三级挑战赛道(规划对齐、CAD辅助操作、纯说明书操作)系统评估了模型从说明书理解到物理操作的全流程能力,为具身智能领域提供了首个说明书引导的操作评估体系。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多页说明书语义理解与长时序操作规划的耦合难题,传统视觉语言模型难以关联说明书功能描述与家电实体部件;在构建过程中,需克服CAD模型部件功能标注的精确性要求(如微波炉按钮温度与时间功能的区分),以及人工验证2200余个部件标注和1400项任务的可靠性。此外,LaTeX代码生成的多格式说明书合成、部件运动轨迹的可视化标注等技术创新,均对数据集的构建精度提出了极高要求。
常用场景
经典使用场景
CheckManual数据集在机器人操作领域具有广泛的应用价值,尤其适用于基于手册的家电操作任务。该数据集通过模拟真实家电手册的内容和结构,为机器人提供了详细的操作指南。经典使用场景包括机器人根据手册内容学习如何操作微波炉、烤箱等复杂家电设备。例如,机器人可以通过阅读手册了解微波炉各按钮的功能及操作顺序,从而完成加热食物的任务。这种场景不仅验证了机器人的多模态理解能力,还展示了其在家庭服务中的实用潜力。
解决学术问题
CheckManual数据集解决了机器人操作领域中的多个关键学术问题。首先,它填补了现有研究中缺乏多页手册理解的空白,使机器人能够处理复杂的多页手册信息。其次,该数据集通过提供与CAD模型对齐的手册数据,解决了机器人操作中部件功能对齐的难题。此外,数据集还支持长时程任务规划的研究,为机器人完成多步骤操作任务提供了基准。这些问题的解决显著提升了机器人在复杂操作任务中的表现,推动了机器人智能化的发展。
衍生相关工作
CheckManual数据集衍生了一系列相关研究工作,其中最典型的是ManualPlan模型的提出。该模型作为首个基于手册的操作规划模型,为后续研究奠定了基础。此外,数据集还促进了多模态大语言模型在家电操作中的应用研究,如结合视觉和语言信息进行部件功能对齐。其他衍生工作包括基于CAD模型的辅助操作策略研究,以及开放词汇操作模型在手册理解中的应用探索。这些工作共同推动了机器人操作领域的理论创新和技术进步。
以上内容由遇见数据集搜集并总结生成



