jablonkagroup/corral-intervention-traces
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/jablonkagroup/corral-intervention-traces
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: catalyst
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 120
- config_name: md
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 350
- config_name: ml
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 1080
- config_name: resistor
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 840
- config_name: retrosynthesis
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 1350
- config_name: spectra
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 1350
- config_name: wetlab
features:
- name: model
dtype: string
- name: environment
dtype: string
- name: agent_type
dtype: string
- name: condition
dtype: string
- name: condition_type
dtype: string
- name: step
dtype: int64
- name: verbosity
dtype: string
- name: task_id
dtype: string
- name: trial_id
dtype: string
- name: score
dtype: float64
- name: success
dtype: bool
- name: surrendered
dtype: bool
- name: duration
dtype: float64
- name: tool_execution_duration
dtype: float64
- name: prompt_tokens
dtype: int64
- name: completion_tokens
dtype: int64
- name: total_tokens
dtype: int64
- name: total_tool_calls
dtype: int64
- name: successful_tool_calls
dtype: int64
- name: failed_tool_calls
dtype: int64
- name: num_messages
dtype: int64
- name: messages
dtype: string
splits:
- name: train
num_examples: 1350
---
提供机构:
jablonkagroup
搜集汇总
数据集介绍

构建方式
在人工智能与化学科学交叉领域,corral-intervention-traces数据集通过系统化实验框架构建而成。该数据集涵盖了催化剂设计、分子动力学、材料科学、电阻器合成、逆合成分析、光谱解析以及湿实验室操作等七个专业化学环境。构建过程中,研究团队部署了多种智能体模型,在受控条件下执行特定化学任务,并详尽记录了每一步的交互轨迹、工具调用详情及性能指标,最终整合成包含数千条样本的结构化追踪数据。
特点
该数据集的核心特征在于其多维度的评估体系与精细的干预记录。每个数据条目不仅包含任务完成状态与得分,还囊括了时间消耗、令牌使用量、工具调用成功率等量化指标,并完整保存了智能体与环境的对话消息历史。这种设计使得数据集能够同时支持对智能体效率、资源消耗和决策过程的全方位分析,为理解化学领域智能体的行为模式提供了丰富的研究素材。
使用方法
研究人员可利用该数据集进行化学领域智能体行为的深入分析。通过加载特定的环境配置,可以提取不同模型在各类化学任务下的性能表现、工具使用模式及失败案例。数据集的结构化特征便于进行横向对比研究,例如分析干预条件对任务成功率的影响,或评估不同智能体架构在复杂化学推理中的效率差异,从而为优化化学智能体系统提供实证依据。
背景与挑战
背景概述
在人工智能与化学科学交叉领域,自主智能体执行复杂实验任务的能力评估成为研究热点。corral-intervention-traces数据集应运而生,旨在系统记录智能体在多样化化学环境(如催化剂设计、逆合成分析、湿实验室操作等)中的干预轨迹。该数据集由相关研究团队构建,通过捕获模型类型、环境状态、代理行为、任务完成度及资源消耗等多维度特征,为评估和优化化学领域智能体的决策逻辑与工具调用效能提供了结构化基准。其核心研究问题聚焦于如何量化智能体在动态且不确定的化学实验场景中的适应性与可靠性,对推动AI驱动的自动化科学研究具有重要影响力。
当前挑战
该数据集致力于解决化学领域智能体在复杂任务中决策与执行的评估挑战,具体包括智能体在多变实验条件下的泛化能力不足、工具调用成功率低以及资源效率优化困难等问题。构建过程中面临多重挑战:一是化学实验环境的多样性与高维状态空间导致轨迹数据采集与标注复杂度高;二是需要确保不同任务(如催化剂设计、光谱解析)间数据的一致性与可比性;三是实时记录智能体与环境的交互消息(messages字段)并准确量化性能指标(如成功率和令牌消耗)对数据基础设施提出了较高要求。
常用场景
经典使用场景
在人工智能驱动的科学发现领域,corral-intervention-traces数据集为评估和优化智能体在复杂科学任务中的表现提供了关键基准。该数据集通过记录智能体在催化剂设计、材料发现、湿实验室操作等多个科学环境下的干预轨迹,包括任务执行步骤、工具调用效率及成功指标,使得研究人员能够深入分析智能体在动态、多步骤科学探索中的决策过程与行为模式。
实际应用
在实际应用中,该数据集可直接用于训练和校准面向科学研究的智能体系统,提升其在真实实验环境中的自主操作能力。例如,在化学合成路径规划或材料性能预测中,基于数据集的轨迹分析可优化智能体的工具调用逻辑与错误恢复机制,进而加速实验迭代、降低研发成本,并为实验室自动化平台的智能决策模块提供性能验证与改进依据。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在科学智能体的评估框架与强化学习策略优化方面。研究者利用其多环境轨迹数据开发了针对智能体干预效果的度量标准,并构建了基于轨迹模仿学习的策略改进模型。这些工作不仅深化了对科学任务中智能体行为范式的理解,也促进了跨领域智能体通用能力评估基准的演进与标准化。
以上内容由遇见数据集搜集并总结生成



