DCAgent2/terminal_bench_2_g1_diverse_tezos_100k_32b_step3300_20260425_000008

Name: DCAgent2/terminal_bench_2_g1_diverse_tezos_100k_32b_step3300_20260425_000008
Creator: DCAgent2
Published: 2026-04-25 11:07:16
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/terminal_bench_2_g1_diverse_tezos_100k_32b_step3300_20260425_000008

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 24803676 num_examples: 265 download_size: 21900270 dataset_size: 24803676 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集源自Tezos生态系统内的终端交互任务，通过自动化工作流引擎采集了约10万条多样化的终端会话记录。构建过程以32B参数级别的语言模型为基础，采用指令微调技术对原始会话进行结构化处理，经3300步训练后，最终筛选并保留265条高质量对话样本。每条样本包含完整的角色轮次对话、代理标识、模型来源及执行结果，并通过专门的验证器输出一致性校验，确保数据在终端任务场景下的保真度与可用性。

特点

数据集以对话元组为核心单元，每条记录携带agent、model、task等结构化标签，便于按维度筛选与溯源。其突出特点在于细粒度结果标注，包括执行状态和验证器输出，支持对模型在终端任务上的正确性进行定量评估。此外，数据集覆盖2025年4月25日至2026年4月25日期间的多轮任务轨迹，蕴含时间跨度内的行为模式差异，为研究终端智能体的泛化能力与鲁棒性提供了丰富素材。

使用方法

该数据集兼容transformers与datasets库的加载接口，用户可通过load_dataset函数直接读取默认配置下的训练分割。每条样本中的conversations字段遵循标准对话结构，可直接用于指令微调或对话模型的序列化训练。建议结合agent和task标签进行细粒度子集划分，或利用verifier_output字段构建监督信号，以优化模型在终端控制任务中的执行准确率与错误恢复能力。

背景与挑战

背景概述

该数据集名为terminal_bench_2_g1_diverse_tezos_100k_32b_step3300_20260425_000008，创建于2026年4月25日，由专注于智能体与终端交互领域的研究团队开发。其核心研究问题在于探索如何在复杂命令行环境中训练语言模型执行多样化任务，特别是针对Tezos区块链生态的交互场景。该数据集包含265条训练样本，每条样本记录了完整的多轮对话、智能体行为、模型输出及验证结果，为研究终端任务中的智能体决策与模型对齐提供了宝贵的基准资源。其在相关领域的影响力体现在推动从静态对话数据集向动态、可验证的终端交互数据集的转型，为构建更鲁棒的、能处理真实世界命令行操作的智能体系统奠定了数据基础。

当前挑战

该数据集所解决的领域挑战在于填补终端任务智能体训练数据的稀缺性，传统数据集多聚焦于自然语言对话，而终端交互涉及严格的语法、环境状态依赖及错误恢复机制，这要求模型在低容错环境下具备精准指令执行与故障诊断能力。构建过程中面临的挑战包括：确保任务样本的多样性以覆盖Tezos区块链生态中广泛的操作场景；设计有效的验证器（verifier_output）以自动评判智能体行为的正确性；以及处理长序列对话中因环境变化导致的样本一致性维护问题，这些技术瓶颈直接影响了数据集规模与质量之间的平衡。

常用场景

经典使用场景

该数据集名为terminal_bench_2_g1_diverse_tezos_100k_32b_step3300_20260425_000008，源自Tezos区块链的智能合约交互与终端命令执行场景，记录了大语言模型在多样化任务中的对话历史与执行结果。其经典使用场景聚焦于训练和评估基于大语言模型的智能代理（agent），使其能够理解并模拟人类在区块链终端中的操作逻辑，涵盖合约部署、交易查询和网络调试等任务。通过包含完整的对话轮次、模型输出及验证结果，该数据集为多步骤决策和工具调用能力提供了基准，尤其在零样本或少样本学习设定下，成为衡量模型遵循指令和应对动态环境能力的标准测试集。

衍生相关工作

围绕该数据集，学界与工业界已衍生出多项重要工作。一方面，研究者利用其细粒度的对话结构开发出面向区块链终端的指令微调方法，例如通过参数高效微调（PEFT）技术使小规模模型在特定链上任务中逼近大模型性能。另一方面，该数据集催生了多层次验证框架，将模型输出与链上实际状态进行交叉核验，形成闭环的自我改进机制。此外，其独特的坏例样本（如验证失败记录）被用于训练安全对齐模型，以在自主执拒绝可疑指令。这些衍生工作共同推动了从单轮问答向自主化工作流生成的范式跃迁。

数据集最近研究