delegate52

Name: delegate52
Creator: Microsoft
Published: 2026-04-20 08:31:06
License: 暂无描述

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/microsoft/delegate52

下载链接

链接失效反馈

官方服务：

资源简介：

DELEGATE52 是一个用于评估大型语言模型（LLMs）在长周期委托文档编辑任务中的表现的基准数据集，涵盖52个专业文档领域（如晶体学文件、音乐符号、会计账目、Python源代码等）。该数据集旨在研究AI系统在委托工作流中的准备情况，即知识工作者指示LLMs代表他们进行长时间文档编辑的新交互范式。数据集包含234个工作环境，覆盖48个领域，共1,629对编辑指令。每个工作环境包括：一个种子文档（2-5k tokens）、5-10对正向和反向自然语言编辑指令、干扰上下文（与任务无关的相关文档）以及元数据（如种子文档来源URL、token计数等）。数据集以JSONL格式发布，每条记录包含详细的结构化信息。 DELEGATE52适用于评估LLMs在编码、晶体学、家谱、音乐符号、会计等多个领域中忠实编辑专业文档而不引入错误的能力。数据集创建于2025年10月至2026年4月，所有文档内容均包含在JSONL文件中。数据集使用CDLA Permissive 2.0许可证，适用于研究用途，但不建议用于商业或高风险决策场景。

提供机构：

Microsoft

创建时间：

2026-04-07

搜集汇总

数据集介绍

构建方式

在专业文档编辑评估领域，DELEGATE52数据集的构建采用了一种半自动化的精心设计流程。研究团队从互联网上搜集了涵盖52个专业领域的真实公开文档作为种子文档，这些文档均具备现实复杂性，长度控制在2至5千词之间，且不包含任何合成数据或模板。编辑指令由研究团队借助基于大语言模型的智能体工作流辅助撰写，随后经过人工精心筛选与验证，确保每对正向与反向指令能够准确描述结构化的文档转换操作。数据集最终以JSONL格式封装，每条记录均包含完整的文档状态、编辑提示及丰富的元数据。

特点

该数据集的核心特点在于其广泛的领域覆盖与严谨的评估框架。它囊括了代码配置、科学与工程、创意媒体、结构化记录及日常应用等五大类别下的48个公开专业领域，共计234个工作环境。每个环境不仅包含种子文档和5至10对精心设计的编辑任务，还引入了任务无关的干扰上下文，用以测试模型过滤无关信息的能力。数据集通过往返接力模拟来评估大语言模型在长流程委托编辑中的忠实性，其设计旨在真实反映知识工作者将文档编辑任务委托给AI系统时所面临的复杂场景。

使用方法

研究人员可通过Hugging Face的`datasets`库直接加载该数据集进行探索性分析。若要执行完整的往返接力模拟评估，需克隆其配套的GitHub代码库，并运行指定的评估脚本。使用过程中，可依据样本中的`states`字段获取不同文档状态及对应的编辑指令，通过`files`字段访问种子文档和干扰文件的完整内容。该数据集专为评估大语言模型在跨领域专业文档编辑中的准确性与鲁棒性而设计，适用于相关研究领域的基准测试与算法验证。

背景与挑战

背景概述

DELEGATE52是由微软研究院于2025年10月至2026年4月期间构建的基准数据集，旨在评估大型语言模型在长程委托文档编辑任务中的表现。该数据集覆盖了52个专业文档领域，包括晶体学文件、音乐乐谱、会计账目和Python源代码等，核心研究问题聚焦于人工智能系统在委托工作流中的可靠性，即知识工作者指示模型代表其进行长时间文档编辑时，模型能否保持编辑的准确性与一致性。这一研究为探索人机协作的新型交互范式提供了重要实证基础，推动了文档智能与自动化编辑领域的前沿进展。

当前挑战

DELEGATE52所解决的领域挑战在于评估大型语言模型在多轮次、跨领域文档编辑中避免错误传播的能力，尤其是在复杂结构化文档（如代码、科学数据格式）上执行精确的正向与逆向编辑指令时，模型需维持语义完整性与格式规范性。数据构建过程中的挑战则体现为半自动化流程的设计：需从公开资源中筛选具有代表性且结构复杂的真实文档作为种子，并人工结合基于LLM的智能工作流编写大量可逆编辑指令对，同时确保数据许可合规性，部分受限文档无法公开分发，这增加了数据集全面性与可复现性之间的平衡难度。

常用场景

经典使用场景

在人工智能辅助文档编辑领域，DELEGATE52数据集为评估大语言模型在长流程委托编辑任务中的表现提供了标准化基准。其经典使用场景涉及模拟知识工作者将专业文档编辑任务委托给AI代理的完整工作流，通过往返接力测试模型在52个专业领域（如晶体学文件、音乐乐谱、会计账簿、Python源代码等）中执行结构化编辑指令的准确性。研究者利用该数据集可系统分析模型在复杂多轮编辑过程中保持文档完整性与语义一致性的能力，尤其关注模型在引入干扰上下文时能否精准识别并执行核心编辑操作。

衍生相关工作

围绕该数据集衍生的经典研究聚焦于长流程AI代理的评估方法论拓展。部分工作基于其多领域架构开发了新型错误检测算法，通过语法树分析与语义一致性校验实现编辑质量的细粒度量化。另有研究借鉴其往返测试范式，构建了针对法律文书、医疗报告等高风险领域的专项基准。数据集提出的干扰上下文设计理念，亦启发了后续关于模型注意力机制与无关信息过滤能力的研究，推动了文档编辑评估从结果导向到过程追踪的范式转变。

数据集最近研究