DCAgent/eval-terminal-bench-2.0alfworld-swesmith-r2eval_ctx131k_non_it_8x_eval_

Name: DCAgent/eval-terminal-bench-2.0__alfworld-swesmith-r2__eval_ctx131k_non_it_8x_eval_
Creator: DCAgent
Published: 2026-04-03 18:08:33
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent/eval-terminal-bench-2.0__alfworld-swesmith-r2__eval_ctx131k_non_it_8x_eval_

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string - name: trace_source dtype: string splits: - name: train num_bytes: 28662591 num_examples: 223 download_size: 4636647 dataset_size: 28662591 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent

搜集汇总

数据集介绍

构建方式

在具身智能与交互式任务规划领域，eval-terminal-bench-2.0__alfworld-swesmith-r2__eval_ctx131k_non_it_8x_eval_ 数据集的构建遵循了严谨的评估范式。其核心数据来源于在 Alfworld 模拟环境中执行的多轮交互任务，通过记录智能体（agent）与环境的完整对话轨迹（conversations）形成。每条记录不仅包含角色（role）与内容（content）的序列，还系统性地标注了执行任务的智能体类型、所使用的底层模型（model）及提供商（model_provider）、任务（task）标识、具体回合（episode）以及运行标识（run_id）等元数据。构建过程强调对任务执行结果（result）与验证器输出（verifier_output）的捕获，确保了评估数据的可追溯性与可复现性，为分析智能体在复杂环境中的决策能力提供了结构化基础。

特点

该数据集的一个显著特点是其多维度的评估属性。它不仅完整保留了智能体与环境交互的自然语言对话流，还深度融合了执行元数据，如任务类型、试验名称（trial_name）和追踪来源（trace_source），从而支持从行为、策略到模型性能的细粒度分析。数据集结构清晰，特征字段设计旨在剥离对话内容与上下文信息，使得研究者能够独立考察语言交互质量与任务执行效能之间的关联。其规模包含223个训练样本，覆盖了多样化的任务场景，为评估和比较不同智能体架构或大语言模型在具身任务规划中的泛化能力与鲁棒性，提供了丰富且标准化的基准数据。

使用方法

对于旨在推进具身智能或任务导向对话系统的研究者而言，该数据集可直接用于模型评估与对比分析。使用者可通过加载数据集，访问‘conversations’字段以分析交互对话的模式与质量，同时结合‘result’、‘verifier_output’等字段定量评估任务完成成功率。通过按‘agent’、‘model’或‘task’等维度进行数据筛选与分组，可以进行跨模型或跨任务的性能基准测试。数据集的标准格式也便于集成到现有的评估框架中，用于训练验证器或作为强化学习的环境反馈信号，从而系统性诊断智能体在规划、工具使用与指令遵循等方面的能力边界。

背景与挑战

背景概述

eval-terminal-bench-2.0__alfworld-swesmith-r2__eval_ctx131k_non_it_8x_eval_数据集聚焦于具身智能领域，旨在评估智能体在模拟环境中的任务执行能力。该数据集由相关研究团队于近期构建，核心研究问题涉及多模态交互与决策推理，通过记录智能体与环境的对话轨迹，为评估模型在复杂场景下的适应性提供基准。其影响力体现在推动具身智能从理论探索向实际应用过渡，为后续研究提供了丰富的交互数据支撑。

当前挑战

该数据集旨在解决具身智能中智能体在开放世界环境下的任务完成挑战，包括对多步骤指令的理解、动态环境适应以及长期规划能力的评估。构建过程中的挑战主要源于数据采集的复杂性，需在模拟环境中精准记录智能体与环境的交互对话，确保轨迹数据的完整性与一致性，同时处理大规模多轮对话的结构化标注，以反映真实世界任务的多样性与不确定性。

常用场景

经典使用场景

在具身智能与强化学习领域，eval-terminal-bench-2.0__alfworld-swesmith-r2__eval_ctx131k_non_it_8x_eval_数据集为评估智能体在复杂交互环境中的规划与执行能力提供了基准。该数据集通过模拟AlfWorld中的多步骤任务，如物体搜索与操作，记录了智能体与环境的对话轨迹，使其成为测试模型在文本驱动虚拟世界中长期推理和动作序列生成的经典场景。研究者利用这些结构化对话数据，能够深入分析智能体在部分可观察环境下的决策过程，推动具身智能向更高效的自主任务完成方向发展。

解决学术问题

该数据集有效应对了具身智能研究中智能体在开放域环境中泛化能力不足的挑战。通过提供大量非指令调优的评估对话，它帮助解决了模型在未见任务上的适应性问题，减少了过拟合风险。其意义在于为评估智能体的上下文理解与多轮交互性能建立了标准化框架，促进了强化学习与自然语言处理交叉领域的理论进展，使得学术界能够更系统地衡量智能体在复杂环境中的稳健性与可扩展性。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，主要集中在强化学习与语言模型融合的探索上。例如，基于其对话结构的研究改进了智能体的分层规划算法，增强了多任务学习能力。同时，该数据集也催生了针对部分可观察马尔可夫决策过程的评估方法创新，推动了如上下文增强推理等技术的进展，为后续AlfWorld相关基准的扩展与优化奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集