DCAgent2/terminal_bench_2_g1_diverse_tezos_100k_32b_step2700_20260424_173529
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/terminal_bench_2_g1_diverse_tezos_100k_32b_step2700_20260424_173529
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 28371609
num_examples: 262
download_size: 21653970
dataset_size: 28371609
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集名为terminal_bench_2_g1_diverse_tezos_100k_32b_step2700_20260424_173529,源自Tezos区块链终端基准测试场景,旨在捕捉智能代理在多轮交互中的行为轨迹。构建过程首先通过部署多样化任务环境,模拟真实用户与终端系统的对话流程;随后收集了约100k条候选交互记录,并利用32B参数的大语言模型在2700步训练后对候选数据进行筛选与增强。最终保留262条高质量样本作为训练集,每条样本均包含完整的对话历史(conversations)、代理标识(agent)、模型信息(model)、任务类型(task)以及验证器输出(verifier_output)等字段,确保数据具有可溯源性。
特点
数据集最显著的特点在于其结构化与多维度元信息。每条样本均以conversations字段存储多轮对话,其中明确区分用户与模型角色(role),便于建模交互动态。此外,通过agent、model、model_provider字段记录数据来源,task与episode字段标识具体任务场景与阶段,run_id与trial_name提供实验追踪能力,result与verifier_output字段则量化任务完成效果与验证结果。这种精细标注使得数据集不仅能用于微调对话策略,还支持对模型行为进行因果分析与泛化性评估。
使用方法
使用该数据集时,可将conversations字段中的角色内容直接作为对话模型的训练输入,通过监督学习优化模型在终端任务中的响应策略。具体而言,将role为‘user’的content视为用户指令,role为‘assistant’的content作为目标输出,构建标准序列到序列训练格式。此外,可利用task字段进行任务条件化训练,或借助verifier_output进行强化学习中的奖励建模。数据集以parquet格式存储,可通过HuggingFace Datasets库加载,并支持分层抽样与跨域迁移实验。
背景与挑战
背景概述
该数据集名为terminal_bench_2_g1_diverse_tezos_100k_32b_step2700_20260424_173529,创建于2026年4月24日,由参与Terminal-Bench项目的研究团队构建。核心研究问题聚焦于评估和提升大型语言模型在终端环境中的智能体能力,特别是处理多样化任务场景的表现。数据集通过收集模型与终端的交互对话、任务执行结果及验证器输出,为智能体系统的性能评估提供了标准化基准。其影响力体现在为自动化运维、命令行智能助手等领域的研究提供了可重复实验的语料基础,推动了语言模型与实际系统交互的落地应用。
当前挑战
该数据集面对的领域挑战是终端环境下的任务自动化与智能体决策问题,传统方法难以应对命令行操作的多样性、命令序列的依赖性以及错误恢复的复杂性。构建过程中遇到的挑战包括:需模拟真实终端交互的随机性与噪声,确保任务示例的全面覆盖(如系统管理、代码编译等场景);设计可靠的验证器以自动判断任务完成质量;平衡数据规模与标注成本,262条训练样本虽精炼但可能限制模型泛化能力。此外,不同操作系统与Shell环境的差异也增加了数据采集的标准化难度。
常用场景
经典使用场景
在终端智能体学习与区块链交互验证的交叉领域,terminal_bench_2_g1_diverse_tezos_100k_32b_step2700_20260424_173529 数据集为多轮对话驱动的智能体行为研究提供了宝贵的资源。该数据集收录了大量真实Tezos区块链终端交互会话,涵盖用户与智能体之间复杂的自然语言指令、系统响应及操作结果。经典使用场景包括训练和评估能够理解并执行链上操作的大型语言模型,例如智能合约部署、资产转移及链上数据查询。研究者可利用其中结构化的人机对话序列,构建基于强化学习的终端任务求解框架,并借助内置的verifier_output字段对模型行为进行自动化评判,从而推动语言模型在区块链自动化操作中的能力提升。
实际应用
在实际部署层面,该数据集为区块链自动化运维工具的研发注入了强劲动力。基于此数据集训练的智能体能够辅助开发者高效完成Tezos链上的智能合约审计、Gas费用预估及交易批量处理等重复性终端操作,显著降低人工介入成本与误操作风险。此外,它支持构建面向普通用户的自然语言区块链交互界面,使用户无需掌握复杂的命令行技能即可安全执行资产托管、DApp调用等任务。在去中心化金融(DeFi)和NFT铸造等高频场景中,此类智能体还可实现自动化策略执行与链上监控告警,从而提升整个生态的运营效率与安全性。
衍生相关工作
围绕该数据集已衍生出多项引领性的研究工作。一方面,研究者基于其对话结构提出了“终端行为追溯学习”范式,通过对比模型输出与verifier_output中的标准结果,设计出新型的奖励建模机制,显著提升了智能体在多步终端任务中的成功率。另一方面,该数据集的多样化任务场景推动了“跨链能力迁移”探索,学者们结合Tezos交互轨迹与以太坊等异构链的指令集,训练出具备通用终端操作能力的元学习框架。此外,数据集中包含的失败案例与纠错过程,催生了针对智能体错误归因与自我反省机制的研究,为构建更可靠的区块链自动化系统奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



