five

TEMP_error_analysis_icml

收藏
Hugging Face2026-01-28 更新2026-01-29 收录
下载链接:
https://huggingface.co/datasets/collinear-ai/TEMP_error_analysis_icml
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集配置文件 'stage2_opd_step3' 定义了一个结构化数据集,主要包含实例ID、模型名称、目标标记以及动作轨迹等核心特征。轨迹数据采用嵌套结构,包含动作类型、参数(如代理类别、阻塞状态、命令内容、确认状态等)、执行内容以及额外元数据。元数据部分详细记录了主机信息、路径、仓库信息、运行时主机列表等系统级参数。数据集结构复杂,包含多级嵌套字段和列表类型,适用于分析代理行为轨迹、命令执行模式或系统交互过程等任务。
提供机构:
Collinear AI
创建时间:
2026-01-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称:TEMP_error_analysis_icml
  • 数据集地址:https://huggingface.co/datasets/collinear-ai/TEMP_error_analysis_icml
  • 配置名称:stage2_opd_step3

数据结构

数据集包含以下特征:

主要字段

  • instance_id:字符串类型,实例标识符。
  • model_name:字符串类型,模型名称。
  • target:布尔类型,目标标签。
  • trajectory:列表类型,轨迹数据,包含以下子字段:
    • action:字符串类型,动作描述。
    • args:结构体类型,参数信息,包含以下字段:
      • agent_class:字符串类型,代理类别。
      • blocking:布尔类型,阻塞状态。
      • command:字符串类型,命令内容。
      • confirmation_state:字符串类型,确认状态。
      • content:字符串类型,内容。
      • cwd:空类型,当前工作目录。
      • end:int64类型,结束位置。
      • file_text:字符串类型,文件文本。
      • file_urls:空类型,文件URL。
      • final_thought:字符串类型,最终思考。
      • hidden:布尔类型,隐藏状态。
      • image_urls:空类型,图像URL。
      • impl_source:字符串类型,实现来源。
      • insert_line:空类型,插入行。
      • is_input:布尔类型,是否为输入。
      • is_static:布尔类型,是否为静态。
      • new_str:字符串类型,新字符串。
      • old_str:字符串类型,旧字符串。
      • openhands_version:字符串类型,OpenHands版本。
      • outputs:空类型,输出。
      • path:字符串类型,路径。
      • query:字符串类型,查询。
      • recall_type:字符串类型,召回类型。
      • start:int64类型,起始位置。
      • task_list:空序列类型,任务列表。
      • thought:字符串类型,思考内容。
      • tools:列表类型,工具列表,包含以下子字段:
        • function:结构体类型,函数信息,包含以下字段:
          • description:字符串类型,描述。
          • name:字符串类型,名称。
          • parameters:结构体类型,参数定义,包含以下字段:
            • additionalProperties:布尔类型,是否允许附加属性。
            • properties:结构体类型,属性定义,包含以下字段:
              • command:结构体类型,命令属性,包含以下字段:
                • description:字符串类型,描述。
                • enum:字符串序列类型,枚举值。
                • type:字符串类型,类型。
              • file_text:结构体类型,文件文本属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • insert_line:结构体类型,插入行属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • is_input:结构体类型,输入属性,包含以下字段:
                • description:字符串类型,描述。
                • enum:字符串序列类型,枚举值。
                • type:字符串类型,类型。
              • message:结构体类型,消息属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • new_str:结构体类型,新字符串属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • old_str:结构体类型,旧字符串属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • path:结构体类型,路径属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • task_list:结构体类型,任务列表属性,包含以下字段:
                • description:字符串类型,描述。
                • items:结构体类型,项目定义,包含以下字段:
                  • additionalProperties:布尔类型,是否允许附加属性。
                  • properties:结构体类型,属性定义,包含以下字段:
                    • id:结构体类型,标识符属性,包含以下字段:
                      • description:字符串类型,描述。
                      • type:字符串类型,类型。
                    • notes:结构体类型,注释属性,包含以下字段:
                      • description:字符串类型,描述。
                      • type:字符串类型,类型。
                    • status:结构体类型,状态属性,包含以下字段:
                      • description:字符串类型,描述。
                      • enum:字符串序列类型,枚举值。
                      • type:字符串类型,类型。
                    • title:结构体类型,标题属性,包含以下字段:
                      • description:字符串类型,描述。
                      • type:字符串类型,类型。
                  • required:字符串序列类型,必需字段。
                  • type:字符串类型,类型。
                • type:字符串类型,类型。
              • thought:结构体类型,思考属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • timeout:结构体类型,超时属性,包含以下字段:
                • description:字符串类型,描述。
                • type:字符串类型,类型。
              • view_range:结构体类型,视图范围属性,包含以下字段:
                • description:字符串类型,描述。
                • items:结构体类型,项目定义,包含以下字段:
                  • type:字符串类型,类型。
                • type:字符串类型,类型。
            • required:字符串序列类型,必需字段。
            • type:字符串类型,类型。
        • type:字符串类型,工具类型。
      • view_range:int64序列类型,视图范围。
      • wait_for_response:布尔类型,是否等待响应。
    • cause:int64类型,原因代码。
    • content:字符串类型,内容。
    • extras:结构体类型,额外信息,包含以下字段:
      • _diff_cache:空类型,差异缓存。
      • additional_agent_instructions:字符串类型,额外代理指令。
      • command:字符串类型,命令。
      • conversation_instructions:字符串类型,对话指令。
      • custom_secrets_descriptions:空类型,自定义秘密描述。
      • date:字符串类型,日期。
      • diff:字符串类型,差异内容。
      • error_id:字符串类型,错误标识符。
      • hidden:布尔类型,隐藏状态。
      • impl_source:字符串类型,实现来源。
      • metadata:结构体类型,元数据,包含以下字段:
        • exit_code:int64类型,退出代码。
        • hostname:字符串类型,主机名。
        • pid:int64类型,进程ID。
        • prefix:字符串类型,前缀。
        • py_interpreter_path:字符串类型,Python解释器路径。
        • suffix:字符串类型,后缀。
        • username:字符串类型,用户名。
        • working_dir:字符串类型,工作目录。
      • microagent_knowledge:列表类型,微代理知识,包含以下子字段:
        • content:字符串类型,内容。
        • name:字符串类型,名称。
        • trigger:字符串类型,触发器。
      • new_content:字符串类型,新内容。
      • old_content:字符串类型,旧内容。
      • path:字符串类型,路径。
      • prev_exist:布尔类型,先前是否存在。
      • recall_type:字符串类型,召回类型。
      • repo_branch:字符串类型,仓库分支。
      • repo_directory:字符串类型,仓库目录。
      • repo_instructions:字符串类型,仓库指令。
      • repo_name:字符串类型,仓库名称。
      • runtime_hosts:结构体类型,运行时主机列表,包含多个以"http://localhost"开头的地址及其对应的int64值。
搜集汇总
数据集介绍
main_image_url
构建方式
在智能体决策与错误分析领域,TEMP_error_analysis_icml数据集的构建体现了系统化实验设计理念。该数据集通过记录智能体在OpenHands环境中执行任务时的完整轨迹来构建,每条轨迹包含动作序列、参数细节及执行元数据。构建过程基于真实交互场景,智能体依据预设指令操作文件系统,其每一步行为均被结构化捕获,包括思考过程、工具调用及环境状态变化。数据采集覆盖多种错误类型,通过标注目标变量以标识任务成败,从而形成用于错误归因分析的标准化语料库。
特点
该数据集的核心特征在于其多层次、细粒度的轨迹记录结构。轨迹字段不仅涵盖动作与参数,还深度整合了智能体的内部认知状态,如思考内容与最终决策。工具调用部分以结构化函数描述呈现,支持复杂操作的分析。元数据维度丰富,包含会话指令、仓库信息及运行时主机详情,为错误溯源提供上下文。数据集的另一突出特点是其真实性,所有交互均源于实际执行环境,错误案例具有自然发生特性,适合用于模型决策链的可靠性评估与脆弱性检测。
使用方法
该数据集适用于智能体决策过程的可解释性研究与错误分析。研究者可加载指定配置,通过实例ID索引具体轨迹,分析模型在文件操作任务中的行为序列。轨迹中的动作与参数可用于重建决策步骤,结合目标标签识别失败环节。工具调用结构支持函数级行为审计,元数据则便于环境因素相关性探索。典型应用包括构建错误分类模型、评估智能体对指令的遵从度,或通过轨迹对比揭示不同模型的决策差异,从而推动更稳健的智能体系统开发。
背景与挑战
背景概述
在人工智能领域,智能体(Agent)的决策轨迹分析是评估模型行为与错误模式的核心环节。TEMP_error_analysis_icml数据集由相关研究团队于近年构建,旨在系统记录智能体在复杂任务执行过程中的多步轨迹与错误成因。该数据集聚焦于智能体在代码编辑、文件操作等实际场景中的行为序列,通过精细的结构化字段(如动作、参数、思考过程)捕捉每一步的决策细节,从而为错误归因与模型鲁棒性研究提供实证基础。其创建推动了可解释性人工智能的发展,使研究者能够深入剖析智能体失败案例的内在机制,对强化学习与自主智能系统的优化具有显著影响力。
当前挑战
该数据集致力于解决智能体在开放域任务中错误分析与轨迹解释的挑战,其核心在于如何从多维度、高复杂度的交互序列中准确识别错误根源。构建过程中的挑战包括:轨迹数据的多模态整合(如文本、命令、状态变更)需要一致的结构化表征;错误标签的标注依赖领域专家知识,难以自动化扩展;以及智能体行为的长序列依赖导致因果推理的模糊性。此外,数据采集涉及大量实时系统交互,需确保环境可控性与数据完整性,这增加了实验复现与泛化验证的难度。
常用场景
经典使用场景
在智能体与代码交互的复杂环境中,TEMP_error_analysis_icml数据集为研究者提供了深入分析智能体行为轨迹的宝贵资源。该数据集通过记录智能体在执行代码编辑、文件操作等任务时的详细步骤,包括动作、参数、思考过程及错误原因,使得研究者能够系统性地考察智能体在动态环境中的决策逻辑与执行效能。其经典使用场景聚焦于对智能体在软件开发或自动化任务中产生的错误进行归因分析,从而揭示智能体在工具使用、环境理解或任务规划中的薄弱环节。
实际应用
在实际应用层面,该数据集为开发更稳健的代码辅助智能体或自动化运维工具提供了关键见解。通过分析数据集中智能体在真实代码库操作中遇到的各类错误,工程师能够诊断智能体在理解复杂指令、处理文件冲突或执行多步骤任务时的常见故障点。这些洞察可直接用于改进智能体的提示工程、工具设计或容错策略,从而提升其在集成开发环境、持续集成管道或自动化测试平台中的实际表现,降低人工干预需求,增强生产力。
衍生相关工作
围绕该数据集,学术界已衍生出多项聚焦于智能体错误分析与性能提升的经典研究。例如,有工作利用该数据集的轨迹信息,开发了新型评估指标以量化智能体的错误恢复能力;另有研究基于错误模式聚类,提出了针对性的训练数据增强或课程学习策略。此外,该数据集也支撑了关于智能体自我诊断与迭代修正框架的探索,这些工作共同推动了智能体在动态、开放域任务中从错误中学习的能力,为后续构建更自适应、更可靠的自主系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作