RLAIF/pretext-ui-harbor-runs-v0

Name: RLAIF/pretext-ui-harbor-runs-v0
Creator: RLAIF
Published: 2026-05-02 02:11:59
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/RLAIF/pretext-ui-harbor-runs-v0

下载链接

链接失效反馈

官方服务：

资源简介：

Pretext UI Harbor Runs数据集是为`@chenglou/pretext` UI任务系列设计的Harbor任务生成和解决运行语料库。数据集包含平面训练索引以及原始编辑过的Harbor工件。内容包括每候选尝试的行（包含模型桶、奖励、Gemini分数、提示和原始工件指针）、物化任务身份/哈希索引、源自轨迹的OpenAI风格用户/助理对话行（无隐藏推理）、用于DPO/RL风格实验的奖励排序尝试对、用于重建Harbor查看器工作/试验分组的平面索引、原始工件文件清单与哈希、完整的编辑Harbor运行输出、完整的物化Harbor任务、源生成工件、家族资源、文档、技能、脚本、测试和工具代码，以及解决率和校准报告。数据集统计信息包括尝试行数1022、任务行数239、SFT行数764、偏好对行数6871、原始文件42559、原始字节1333360423、编辑文本文件2395。源仓库导出在发布前已编辑已知API密钥字段，打包程序还运行了最终的未编辑秘密扫描。

Harbor task-generation and solve-run corpus for the `@chenglou/pretext` UI task family. The dataset contains flat training indexes plus raw redacted Harbor artifacts. Contents include one row per candidate attempt (with model bucket, reward, Gemini score, prompt, and raw artifact pointers), materialized task identity/hash index, OpenAI-style user/assistant conversation rows derived from trajectories without hidden reasoning, reward-ordered attempt pairs for DPO/RL-style experiments, flat indexes for reconstructing the Harbor Viewer job/trial grouping, raw artifact file manifest with hashes, full redacted Harbor run outputs, full materialized Harbor tasks, source-generation artifacts, family resources, docs, skill, scripts, tests, and harness code, and solve-rate and calibration report. Counts include Attempt rows: 1022, Task rows: 239, SFT rows: 764, Preference pair rows: 6871, Raw files: 42559, Raw bytes: 1333360423, Redacted text files: 2395. The source repo export redacts known API-key fields before publication, and the packager runs a final unredacted-secret scan.

提供机构：

RLAIF

搜集汇总

数据集介绍

构建方式

在预训练UI任务领域，数据集的构建质量直接决定了模型对用户界面理解与交互能力的上限。Pretext-UI-Harbor-Runs-v0 数据集通过整合 Harbor 任务生成与求解运行的完整流程，构建了一个结构化的训练语料库。其核心构建方式包括：首先从 Harbor 系统中导出原始运行产物，并对其进行脱敏处理，移除已知的API密钥字段以保障安全性；随后，基于这些原始数据，分别提取生成多种数据格式，包括候选尝试记录（attempts）、任务索引（tasks）、适用于监督微调（SFT）的用户-助手对话记录、可用于偏好学习的奖励排序对比对（preference pairs），以及用于重构 Harbor Viewer 任务的索引文件。此外，数据集的原始数据部分保留了完整的 Harbor 运行输出、具体化任务以及各类生成资源、文档和测试代码，确保了数据源的全面性与可追溯性。最终，所有数据被整理为JSONL格式并统一输出。

特点

该数据集具备多重显著特点。其一，数据类型丰富，涵盖了从原始的 Harbor 产物（包括运行输出、任务定义、脚本与测试代码）到高阶的训练数据结构（如SFT对话和偏好对），为不同训练范式提供了灵活支持。其二，数据规模庞大且分布均衡，包含超过42,000个原始文件，并从中提炼出1,022条尝试记录、239个任务定义、764条SFT对话以及6,871个偏好对比对，确保了模型训练的充分性与多样性。其三，数据集内置了完整的元信息，每个记录均关联了字节大小、内容类型、路径、SHA256哈希值等字段，便于进行数据溯源与质量审计。其四，数据集在构建过程中融入了严谨的脱敏机制，除自动替换API密钥字段外，还通过最终扫描确保无未脱敏的秘密信息泄露，提升了数据使用的合规性与安全性。

使用方法

Pretext-UI-Harbor-Runs-v0 数据集在使用上呈现出高度的模块化与灵活性。对于监督微调任务，研究者可直接加载 `sft_conversations.jsonl` 文件，其中已包含按OpenAI风格组织的用户与助手对话轮次，无需额外预处理即可用于训练模型生成符合UI交互规范的回复。针对强化学习与偏好对齐实验，`preference_pairs.jsonl` 文件提供了基于奖励模型排序的对比对，可直接用于DPO等算法。而对于需要深度理解任务结构的场景，`tasks.jsonl` 与 `attempts.jsonl` 文件可联合使用，前者定义任务标识，后者记录每次候选求解的结果及其对应的奖励分数，便于分析模型在不同任务上的表现。此外，数据集支持通过 `artifact_contents_rows` 配置进行原始Harbor产物的内容访问，研究者可利用字段如 `bytes`、`sha256`、`source` 等进行定制化的特征提取与分析。所有数据均以JSONL格式存储，兼容主流的深度学习框架的数据加载管线。

背景与挑战

背景概述

Pretext UI Harbor Runs v0数据集由@chenglou/pretext团队于近期创建，专注于Harbor任务生成与求解语料库的构建。该数据集以用户界面（UI）任务族为核心，系统性地收集了候选解决方案、奖励模型评分、Gemini评估分数及原始Harbor构件等结构化信息，为强化学习（如DPO/RL）和指令微调（SFT）等范式提供标准化训练素材。其涵盖的1022条尝试记录、239条任务条目及6871对偏好数据，显著填补了UI自动化领域在任务生成与求解评估方面的高质量语料空白，推动相关研究向更系统化、可复现的方向发展。

当前挑战

该数据集主要挑战包括：一是UI任务族固有的领域复杂性，表现为交互序列的多样性、界面状态的动态变化及隐含的逐步推理过程，使得模型难以从固定轨迹中捕捉鲁棒策略，需借助偏好排序与多粒度评估信号进行优化；二是数据集构建中面临的工程挑战，需在保证构件完整性的同时，通过先验规则自动擦除已知API密钥并实施终末未脱敏机密扫描，以确保发布合规性。这种数据规模与安全要求的平衡，对自动化流水线的稳健性提出较高要求。

常用场景

经典使用场景

在基于指令的UI任务自动化研究领域，Pretext UI Harbor Runs v0数据集为评估和训练多模态语言模型提供了标准化的基准。该数据集收纳了从Harbor运行环境中导出的完整任务生成与求解轨迹，包含1022次候选尝试记录、239项具体任务身份索引以及6871对偏好配对数据。研究者可利用其丰富的RAW工件清单和红acted运行输出，系统性地评测模型在GUI操控任务中的规划准确率、执行成功率及安全合规性。该数据集尤适于构建从自然语言指令到界面操作序列的端到端映射，成为验证Pretext UI任务族框架下模型能力的关键测试场。

实际应用

在实际应用中，该数据集驱动着智能代理系统在软件自动化测试、数字孪生沙盒训练和无障碍界面导航等场景的能力跃迁。开发团队可依据其规范格式训练能自主操作企业级Harbor平台的AI助手，在持续集成流水线中自动执行配置检查、日志审计与故障恢复流程。其内置的校准报告和速率分析工具使数据可直接赋能低代码平台中的动态UI适配引擎，帮助非技术用户通过自然对话实现复杂工作流的编排调度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集