five

DCAgent2/terminal_bench_2_Qwen3_235B_A22B_Instruct_2507_tput_20260429_192427-traces

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/terminal_bench_2_Qwen3_235B_A22B_Instruct_2507_tput_20260429_192427-traces
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 13623205 num_examples: 244 download_size: 11332601 dataset_size: 13623205 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自终端基准测试(Terminal Bench)的评测过程,记录了Qwen3-235B-A22B-Instruct模型在2507时间戳下的吞吐量实验轨迹。构建方式上,系统通过模拟真实终端交互环境,采集了244条包含多轮对话的完整轨迹数据。每条样本均包含conversations字段,以角色与内容对的形式结构化存储对话历史,同时附带agent、model、model_provider等元信息,以及任务标识task、尝试轮次episode、唯一运行ID run_id和实验名称trial_name等细粒度索引。此外,result与verifier_output字段分别记录了任务执行结果与验证器输出,为评估模型在终端场景下的表现提供了多维度标注。
特点
该数据集的核心特色在于其高度的结构化与精细化记录。数据以角色对(role-content pair)形式组织对话序列,清晰展现了模型在终端任务中的交互逻辑与决策路径。元信息字段(agent、model、model_provider)使得用户可以追溯每次推理的具体来源,便于进行模型性能对比与消融分析。同时,任务标识task与尝试轮次episode的组合设计,支持对同一任务下多次尝试的纵向追踪,能够揭示模型在不同策略或上下文下的行为差异。运行ID与实验名称的引入更进一步确保了实验的可复现性与可审计性,为终端智能体研究提供了可靠的数据基础。
使用方法
本数据集适用于终端环境下的智能体性能评估与行为分析研究。使用时可凭借conversations字段中的角色-内容对还原完整的对话历史,辅助分析模型在指令理解、工具调用与错误恢复等方面的能力。元信息字段(如task、episode)支持对特定任务或某次尝试的数据进行灵活筛选与子集提取,便于开展聚焦性实验。result与verifier_output字段可作为监督信号或质量评价基准,用于微调或强化学习训练。数据集已按标准格式划分为单一训练集split(244条样本),可直接接入HuggingFace Datasets库进行加载,亦便于与主流深度学习框架无缝集成。
背景与挑战
背景概述
随着大型语言模型(LLM)在复杂任务中的广泛应用,评估其在真实环境中的性能成为关键挑战。2025年4月,Qwen团队发布的Qwen3-235B-A22B-Instruct模型在指令遵循与推理能力上取得显著进展。为深入剖析该模型在终端交互场景中的实际表现,研究者构建了terminal_bench_2_Qwen3_235B_A22B_Instruct_2507_tput_20260429_192427-traces数据集,旨在捕捉模型在多轮对话、工具调用等动态任务中的行为轨迹。该数据集由高性能AI研究机构主导创建,包含了244条训练样本,每条样本涵盖完整对话历史、模型响应及任务结果,为评估LLM在终端环境下的吞吐量、稳定性与智能决策能力提供了标准化基准,对推动LLM在自动化运维、智能编程等领域的落地具有重要指导价值。
当前挑战
该数据集面临的核心挑战首先来自领域问题本身:终端环境下的模型评估需同时兼顾指令理解的精确性、工具调用的鲁棒性以及多轮交互的连贯性,而现有基准多聚焦于静态问答或单一任务,难以刻画动态场景中的真实性能。其次,构建过程中遭遇多重技术困难:采集耗时较长,需在固定硬件配置下运行高吞吐量任务,确保数据覆盖不同复杂度任务;对话轨迹的语义去噪与对齐策略复杂,需过滤无效重试与冗余输出;结果验证依赖人工与自动化结合,对verifier_output字段的判定标准需反复校准,以平衡准确性与泛化能力。这些挑战共同促使数据集在样本多样性、标注一致性及可扩展性上需达到极高要求。
常用场景
经典使用场景
terminal_bench_2_Qwen3_235B_A22B_Instruct_2507_tput_20260429_192427-traces 数据集专为评估终端代理(terminal agent)在执行多步骤命令行任务时的吞吐量性能而设计。其经典使用场景集中于衡量大规模语言模型在模拟终端环境中的指令遵循效率与响应速度,通过记录代理的对话轨迹、任务执行结果及验证器输出,研究者可系统性地分析模型在真实或仿真终端界面中完成文件操作、系统配置、脚本执行等复杂任务的耗时与成功率。该数据集包含244条高质量交互轨迹,每条数据均标注了代理类型、模型信息及任务标签,为终端自动化领域提供了标准化的性能基准。
衍生相关工作
该数据集的发布催生了一系列关于终端代理效率优化的研究。经典衍生工作包括基于轨迹图的吞吐量瓶颈分析方法,通过分析对话中“思考”与“行动”轮次的比例,提出减少无效推理步骤的压缩策略。部分研究利用数据集中的验证器反馈,开发了自适应终止机制,使代理能在确保任务正确的同时提前中断冗余对话。此外,还有工作将本数据集的吞吐量指标与更广泛的语言模型基准进行对比,揭示了模型规模与终端操作效率之间的非线性关系,为轻量化终端代理的架构设计提供了实证依据。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型在终端交互任务中的指令遵循与执行轨迹分析,特别是针对Qwen3-235B-A22B-Instruct这类混合专家模型在复杂shell环境下的行为模式。当前前沿研究方向体现在利用细粒度的agent-环境交互日志(包括模型输出、验证器结果及多轮对话记录)来评测模型的实际操控能力,并结合时序与任务粒度特征,探索高效的系统调用与反馈循环优化。该数据集的出现与AI Agent在自动化运维、开发助手等实际场景中的爆发式需求紧密相关,其记录的真实运行轨迹为模型在未预定义任务上的泛化鲁棒性研究提供了稀缺的基准资源,对推动大模型从事实际终端操作具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务