five

WebTerminal

收藏
Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/AdaMLLab/WebTerminal
下载链接
链接失效反馈
官方服务:
资源简介:
WebTerminal 数据集是从两个大型网络文本语料库中提取的终端和命令行内容经过过滤的子集,旨在在预训练过程中增加与代理行为相关的数据。数据集包含两个子集:'clean'(默认)和 'unfiltered'。'clean' 子集经过严格的结构化过滤,包含约 2.33M 行文本,4.6B 标记,质量高达 98% 的终端内容;而 'unfiltered' 子集包含 61.3M 行文本,359B 标记,其中约 15% 为终端内容。数据集构建过程包括快速过滤、评分、去重和结构化过滤等步骤,确保数据质量。适用于预训练过程中增加代理相关数据的场景,推荐使用 'clean' 子集。
创建时间:
2026-02-14
原始信息汇总

WebTerminal 数据集概述

数据集基本信息

  • 名称: WebTerminal
  • 维护者: AdaMLLab
  • 许可证: Apache-2.0
  • 主要任务类别: 文本生成
  • 语言: 英语
  • 标签: 智能体、编码、终端、Shell、预训练、智能体化、大语言模型、网络、FineWeb、DCLM
  • 数据规模: 1M < n < 10M
  • 配置: 提供 clean(默认)和 unfiltered 两个子集。

数据内容与来源

  • 核心内容: 从两个大型网络文本语料库中筛选出的终端和命令行相关内容,旨在为预训练阶段上采样与智能体相关的数据。
  • 数据来源:
    • DCLM (Zyphra/dclm-dedup)
    • FineWeb (Salesforce/fineweb_deduplicated)

子集详情

子集 数据行数 令牌数 数据大小 终端内容质量
clean (默认) 2.33M 4.6B 11 GB ~98%
unfiltered 61.3M 359B 962 GB ~15%

构建方法

v0.1 — 未过滤版本

  1. 快速过滤: 跳过任何不包含明显命令行指示符(如$sudopip installbashroot@等)的文档。
  2. 评分: 对剩余文档基于五个信号进行评分(0-34分),每个信号有单次匹配分值和上限。
  3. 去重: 使用 xxhash64 对全文进行跨数据集精确去重,移除了 1,168 个重复项。
  4. 保留标准: 评分 >=5 的文档被保留。

v0.2 — 清洁版本

对未过滤数据应用三阶段结构过滤器:

  1. 上下文感知门控: 要求 $ 后接已知命令(如 $ sudo),而非单独匹配 $
  2. 验证正则表达式: 确认存在真正的结构化的终端模式。
  3. 加权结构评分: 每个模式有权重(1-3)和出现次数上限。文档需满足 term_score_v2 >= 3 才被保留。
  4. 结果: 仅 3.8% 的未过滤数据被保留,质量从约 15% 提升至约 98%。

数据模式

清洁子集

列名 类型 描述
text string 文档文本
term_score int32 原始 v0.1 评分 (5-34)
term_score_v2 int32 v0.2 过滤器的结构评分 (3+)

未过滤子集

列名 类型 描述
text string 文档文本
term_score int32 原始 v0.1 评分 (5-34)

统计信息

清洁版本 (v0.2)

  • 2,334,414 行 | 4.6B 令牌 (使用 Llama-3.2-1B 分词器) | 11 GB
  • 62 个 Parquet 文件,每个约 169-185 MB,使用 snappy 压缩。

未过滤版本 (v0.1)

  • 61,341,278 行 | 359B 令牌 | 962 GB
  • 4,187 个 Parquet 文件,每个约 180-240 MB,使用 snappy 压缩。
v0.1 评分 数量 占比
5 39,025,201 63.62%
6 10,787,199 17.59%
7 4,063,886 6.63%
8 2,911,983 4.75%
9-14 3,594,547 5.86%
15-34 958,462 1.56%

使用说明

  • 主要用途: 在预训练期间上采样与智能体相关的数据。
  • 推荐: 对于大多数用例,推荐使用 clean 子集。
  • 其他: unfiltered 子集可供希望应用自己过滤方法的研究人员使用。

加载方式

python from datasets import load_dataset

加载清洁子集(默认)

ds = load_dataset("AdaMLLab/WebTerminal")

加载未过滤子集

ds = load_dataset("AdaMLLab/WebTerminal", "unfiltered")

搜集汇总
数据集介绍
main_image_url
构建方式
在构建WebTerminal数据集的过程中,研究团队从DCLM和FineWeb两个大规模网络文本语料库中提取了终端与命令行相关内容。初始版本通过快速过滤机制筛选出包含明显命令行指示符的文档,并基于五个信号维度进行评分,保留得分不低于5的文档。随后,针对初始版本中存在的噪声问题,升级版本引入了上下文感知的门控机制,要求美元符号后紧跟已知命令,并采用验证性正则表达式确认终端模式的结构真实性。最终通过加权结构评分系统,仅保留得分达到3及以上的文档,从而将数据质量从约15%提升至98%的纯终端内容。
特点
WebTerminal数据集的核心特点在于其高质量与大规模并存的终端文本集合。该数据集提供了两个子集:经过严格过滤的clean子集包含约233万行文本,涵盖46亿个标记,其中终端内容纯度高达98%;而unfiltered子集则保留了6130万行原始筛选结果,为研究者提供了自主过滤的原始材料。每个文档均附有详细的评分信息,包括初始版本的结构化得分,便于用户根据需求进行精细化选择。数据以Parquet格式存储,采用Snappy压缩,兼顾了存储效率与访问性能。
使用方法
该数据集主要应用于预训练过程中对代理相关数据的上采样,尤其适合用于增强语言模型在终端操作与命令行交互方面的能力。用户可通过Hugging Face的datasets库直接加载数据,默认配置将导入clean子集,若需使用未过滤版本,则需指定unfiltered参数。数据加载后,用户可依据term_score_v2等评分字段进行进一步筛选,以适配不同的训练需求。对于希望探索原始过滤效果的研究者,unfiltered子集提供了完整的评分分布,支持自定义过滤策略的开发与验证。
背景与挑战
背景概述
在人工智能与自然语言处理领域,提升大型语言模型在交互式环境中的推理与执行能力已成为前沿研究方向。WebTerminal数据集由AdaMLLab团队于近期构建,旨在从大规模网络文本语料中精确提取终端与命令行界面相关内容,为增强模型的代理式行为提供高质量预训练数据。该数据集基于DCLM和FineWeb两大知名语料库,通过多阶段过滤机制,聚焦于解决模型在理解与生成命令行指令、系统交互输出等结构化文本方面的核心研究问题,对推动代码生成、自动化脚本编写及智能体系统发展具有显著影响力。
当前挑战
WebTerminal数据集致力于应对智能体系统中模型对终端环境交互理解的挑战,其核心在于区分自然语言叙述与结构化命令行内容,确保数据在语义与语法上的准确性。在构建过程中,初始版本面临上下文无关关键词匹配导致的噪声问题,例如货币符号与命令缩写混淆、代码块误判等,使得数据纯度仅约15%。为此,团队引入上下文感知门控与加权结构评分机制,通过强化提示模式、命令序列及输出格式的验证,将噪声比例从约86%降至2%,最终实现约98%的终端内容纯度,但如何平衡数据规模与质量、适应多样化的命令行环境仍是持续优化的关键。
常用场景
经典使用场景
在人工智能代理领域,WebTerminal数据集为预训练语言模型提供了丰富的终端和命令行交互文本。这些文本源自大规模网络语料库的精选提取,专门用于增强模型对命令行界面(CLI)的理解与生成能力。通过包含shell提示符、命令序列及执行输出等结构化内容,该数据集能够有效模拟真实环境中的系统操作场景,为构建具备代理能力的智能体奠定数据基础。
实际应用
在实际应用层面,WebTerminal数据集可赋能多种智能化系统工具的开发。例如,基于该数据训练的模型能够构建更智能的命令行助手,自动生成复杂脚本或诊断系统问题;在教育培训领域,可模拟真实终端环境用于教学演示;此外,它还能增强自动化运维工具的自然语言接口,使非专业用户通过简单描述完成系统配置或故障排查,提升人机协作效率。
衍生相关工作
围绕WebTerminal数据集,已衍生出多项聚焦终端智能体的经典研究工作。这些工作通常利用其高质量命令行序列,训练模型学习命令预测、参数补全及错误修复等任务。部分研究进一步结合强化学习框架,使智能体能在模拟环境中执行多步操作;另一些工作则探索跨平台命令的泛化能力,或将终端交互与图形界面相结合,推动面向实际部署的代理系统持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作