DELEGATE-52

github2026-04-20 更新2026-04-23 收录

下载链接：

https://github.com/microsoft/delegate52

下载链接

链接失效反馈

官方服务：

资源简介：

DELEGATE-52数据集包含234个工作环境，涵盖48个专业领域（从完整的310个环境中筛选出的允许重新分发的种子文档）。每个环境包括一个种子文档、5-10个可逆编辑对以及干扰上下文。该数据集用于评估LLMs在长期委托文档编辑任务中的表现。

The DELEGATE-52 dataset consists of 234 working environments covering 48 professional domains, with its redistributable seed documents selected from a total of 310 environments. Each working environment comprises one seed document, 5 to 10 reversible editing pairs, and distracting context. This dataset is intended for evaluating the performance of large language models (LLMs) on long-term entrusted document editing tasks.

创建时间：

2026-04-07

原始信息汇总

DELEGATE-52 数据集概述

数据集基本信息

数据集名称：DELEGATE-52
数据集用途：用于评估大语言模型（LLM）在52个专业领域中进行长视野委托文档编辑的能力。
数据集地址：https://huggingface.co/datasets/microsoft/delegate52
关联论文：https://arxiv.org/abs/2604.15597

数据集内容与结构

领域覆盖：涵盖52个专业领域，包括晶体学文件、音乐符号、会计分类账、Python源代码等。
环境数量：包含234个工作环境，覆盖48个领域（这是310个完整环境中允许重新分发种子文档的子集）。
环境构成：每个环境包含一个种子文档、5-10个可逆编辑对以及干扰上下文。

核心功能与实验方法

模拟工作流：模拟长视野委托工作流，其中LLM代表知识工作者编辑专业文档。
往返中继模拟：执行结构编辑（“前向”编辑）和撤销该编辑的任务（“后向”编辑），并将多个往返链接起来以模拟长交互。
评估指标：使用重建分数（RS@k），通过领域特定的相似性函数来衡量经过k次交互后的文档保存情况。

评估结果

评估模型：评估了来自六个家族的19个LLM（OpenAI、Anthropic、Google、Mistral、xAI、Moonshot）。
结果可视化：论文中提供了19个LLM的往返中继结果图。

使用与获取

自动下载：运行模拟时，数据集会自动从Hugging Face下载。
直接加载：可通过Hugging Face Hub直接加载数据集。
代码依赖：仓库提供实验运行器、领域特定解析器和评估器以及提示模板。

贡献与许可

贡献方式：欢迎社区贡献，包括添加新的工作环境、改进编辑任务、改进领域评估器以及贡献全新的领域。
许可证：MIT License。

使用注意事项

预期用途：最适合运行往返中继模拟，以评估LLM在52个领域内忠实编辑专业文档而不引入错误的能力。
非预期用途：不适用于模拟人类与LLM之间的真实交互，不应取代人类研究或标注，不推荐用于商业或现实世界应用以及高风险决策环境。
局限性：需要访问LLM（基于API或本地托管），基准测试使用英语设计和测试，未系统性地防范安全漏洞。
最佳实践：建议先进行小规模实验，使用--num_workers进行并行化，并鼓励使用支持负责任AI缓解措施的LLM。

搜集汇总

数据集介绍

构建方式

在专业文档编辑评估领域，DELEGATE-52数据集的构建体现了严谨的工程化设计。该数据集通过精心筛选涵盖52个专业领域的原始文档作为种子，例如晶体学文件、音乐乐谱、会计账簿和Python源代码等，确保覆盖广泛的现实应用场景。每个领域均配备了专用的解析器与评估器，用以精确量化文档在编辑过程中的保真度。数据构建过程遵循可逆编辑原则，为每个种子文档设计5至10组结构化的正向与反向编辑任务，并引入干扰上下文以模拟真实工作流程中的复杂性。这种设计使得数据集能够支持长视野的委托编辑模拟，为评估大语言模型在多次交互中的文档处理能力提供了可靠基础。

特点

DELEGATE-52数据集的核心特点在于其跨领域覆盖的广度与评估机制的深度。数据集囊括了52个高度专业化的文档领域，这些领域被划分为五个主要类别，从技术性极强的编程代码到结构严谨的财务表格，全面考验模型对多样化格式与语义的理解能力。其评估体系采用领域特定的相似性函数计算重建分数，能够精确度量文档在经过多次编辑循环后的保真程度。数据集内置的可逆编辑任务链支持模拟长达20次模型交互的委托工作流，从而揭示模型在长序列任务中可能产生的错误累积现象。这种设计不仅提供了丰富的测试场景，也为深入研究大语言模型在复杂编辑任务中的行为模式奠定了实证基础。

使用方法

使用DELEGATE-52数据集进行实验需要遵循系统化的操作流程。研究人员首先需克隆代码仓库并安装依赖项，配置相应的大语言模型API密钥以启用生成功能。核心实验可通过运行中继模拟脚本实现，该脚本支持指定目标模型、领域及循环次数，自动从Hugging Face平台下载数据集并执行多轮往返编辑任务。数据集亦可直接加载为JSONL格式进行离线分析，便于用户检视种子文档与编辑指令的原始结构。实验运行过程中，用户可灵活调整并行工作线程数以适配API速率限制，或选择排除干扰上下文以简化测试条件。该框架为复现论文结果、扩展新领域或评估其他模型提供了模块化且可扩展的研究平台。

背景与挑战

背景概述

在大型语言模型（LLM）日益融入专业工作流的背景下，文档编辑的长期委托任务成为评估模型可靠性的关键。DELEGATE-52由微软研究团队于2026年创建，旨在系统评估LLM在52个专业领域（如晶体学文件、音乐乐谱、会计分类账、Python源代码等）中进行长视野委托文档编辑的能力。该数据集通过模拟多轮往返编辑工作流，核心研究问题聚焦于LLM在复杂、结构化文档编辑过程中是否引入不可逆的语义或格式错误，从而为自动化文档处理的可信性研究提供了重要基准。

当前挑战

DELEGATE-52所应对的领域挑战在于，专业文档编辑要求模型在保持语义一致性和结构完整性的同时，精确执行多步骤、可逆的操作，而现有LLM在长序列任务中易出现错误累积与文档损坏。构建过程中的挑战则体现为：需为52个高度异质的领域设计领域特定的解析器与评估器，确保编辑任务的可逆性与真实性；同时，数据集需平衡种子文档的多样性、编辑指令的清晰度以及干扰上下文的引入，以模拟真实工作环境的复杂性。

常用场景

经典使用场景

在自然语言处理与人工智能领域，长序列文档编辑任务对大型语言模型的鲁棒性提出了严峻挑战。DELEGATE-52数据集通过模拟跨52个专业领域的委托编辑工作流，为评估模型在复杂、多轮次交互中的表现提供了标准化的实验平台。其经典使用场景在于执行往返接力模拟：模型首先对种子文档执行结构性编辑，随后尝试撤销该编辑以恢复原文档，通过链式循环模拟长达数十次的交互过程，从而系统性地检验模型在长期委托任务中保持文档完整性的能力。

衍生相关工作

基于DELEGATE-52的评估框架，研究者已展开多项延伸工作。例如，针对模型在长工作流中错误累积的机制，有研究提出了增强的迭代修正策略与动态提示优化方法。同时，该数据集启发了对多模态文档编辑能力的探索，如结合代码执行器与文件操作工具的智能体架构。此外，部分工作聚焦于扩展领域覆盖，将评估范围延伸至医疗记录、法律合同等高风险领域，进一步深化了对模型在专业化、结构化文本处理中边界与局限性的理解。

数据集最近研究