IndusGCC
收藏arXiv2025-09-01 更新2025-11-24 收录
下载链接:
https://github.com/Golden-Arc/IndusGCC
下载链接
链接失效反馈官方服务:
资源简介:
IndusGCC是一个针对工业自动化中基于图形用户界面(GUI)的通用计算机控制的大规模数据集。该数据集涵盖了七个工业领域的448个真实世界任务,包括机器人控制、关键任务工业网络和制造自动化等。每个任务实例都与多模态人类交互数据同步,包括屏幕录制、鼠标位置、鼠标和键盘事件以及文本任务描述。IndusGCC旨在为GUI级代码生成提供丰富的监督信号,并促进未来在该领域的研究。
IndusGCC is a large-scale dataset for general-purpose computer control based on graphical user interfaces (GUIs) in industrial automation. This dataset covers 448 real-world tasks across seven industrial domains, including robot control, mission-critical industrial networks, manufacturing automation, and more. Each task instance is synchronized with multimodal human interaction data, including screen recordings, mouse positions, mouse and keyboard events, and textual task descriptions. IndusGCC aims to provide rich supervisory signals for GUI-level code generation and facilitate future research in this field.
提供机构:
香港中文大学信息工程系
创建时间:
2025-09-01
搜集汇总
数据集介绍

构建方式
在工业自动化向柔性制造转型的背景下,IndusGCC数据集通过采集真实工厂环境中的多模态交互数据构建而成。研究团队与运营工厂合作,记录了涵盖机械臂控制、生产线配置等七大领域的448项任务,同步采集屏幕录像、鼠标轨迹及键盘事件,并采用三阶段工作流进行数据对齐、任务分割与专家审核,确保每个任务段具有明确的起止点和操作目标。
特点
该数据集显著特点在于其高度真实的工业场景覆盖与多模态数据融合。它不仅包含机器人控制、化学合成等关键任务的操作序列,还整合了视觉界面动态与交互行为数据,形成时空同步的监督信号。针对工业软件封闭性特点,数据集采用纯像素级观察设定,摒弃对结构化接口的依赖,并通过标注操作容差范围,精准区分功能有效与无效动作。
使用方法
研究者可通过视频输入驱动控制脚本生成,依托视觉感知工具提取关键帧与界面文本信息。数据集支持基于PyAutoGUI的代码生成评估,采用四维度量体系:通过LLM判定的功能等价性验证任务成功率,基于史密斯-沃特曼算法的序列相似度分析结构对齐,结合容差判定的操作命中率检测空间精度,并通过冗余率评估代码执行效率。
背景与挑战
背景概述
随着工业4.0时代的到来,柔性制造成为现代工业系统的核心支柱,设备自动化在其中扮演关键角色。然而,传统工业控制软件依赖图形用户界面的人工交互操作,严重制约了基于代码的自动化技术发展。在此背景下,香港中文大学与哥本哈根大学等机构于2025年联合推出IndusGCC数据集,这是首个面向工业场景的通用计算机控制基准数据集。该数据集涵盖机器人控制、产线配置等七大领域共448项真实任务,通过采集多模态人机交互数据,为基于大语言模型的工业自动化研究提供了重要支撑。
当前挑战
工业环境下的通用计算机控制面临双重挑战:在领域问题层面,工业GUI系统具有视觉多样性高、领域特异性强、实时反馈复杂等特征,且任务具有关键使命属性,要求操作具备毫米级精度;在构建过程中,数据集需在缺乏结构化访问权限的闭源系统中采集数据,通过融合屏幕录像与人工标注确保多模态数据同步,并采用多智能体协作框架生成黄金标准代码以克服单模型偏差。
常用场景
经典使用场景
在工业自动化领域,IndusGCC数据集为基于图形用户界面的通用计算机控制研究提供了关键支撑。该数据集覆盖机器人控制、网络设备配置、化学合成过程控制等七个工业领域,通过448个真实任务实例构建了多模态交互数据框架。研究人员可利用该数据集训练和评估大语言模型在复杂工业环境中的GUI操作能力,推动工业设备自动化控制技术的发展。
解决学术问题
IndusGCC有效解决了工业场景中GUI自动化控制的核心学术难题。针对传统工业软件依赖人工操作、缺乏编程接口的困境,该数据集提供了视觉感知与行为规划的基准测试平台。通过功能等价性评估和结构相似性度量,研究者能够系统分析模型在空间定位、时序理解和操作规划方面的性能瓶颈,为构建可靠工业控制智能体奠定理论基础。
衍生相关工作
该数据集催生了工业LLM控制领域的系列创新研究。基于IndusGCC构建的多智能体协作框架为工业设备管理提供了新范式,相关研究延伸至分布式物联网自动化系统Chemist-X的研发。同时,数据集引入的Smith-Waterman算法序列比对方法和操作容忍度标注标准,为后续工业控制脚本生成的质量评估建立了可复用的技术规范。
以上内容由遇见数据集搜集并总结生成



