MuLD

Name: MuLD
Creator: 杜伦大学计算机科学系
Published: 2022-02-15 20:42:55
License: 暂无描述

arXiv2022-02-15 更新2024-07-24 收录

下载链接：

https://github.com/ghomasHudson/muld

下载链接

链接失效反馈

官方服务：

资源简介：

MuLD数据集由杜伦大学计算机科学系创建，包含6个长文档任务，每个任务的输入文档至少包含10,000 tokens，涵盖多种数据集大小、类型和格式，专门设计来测试模型处理长文本中长期依赖的能力。数据集通过筛选、扩展或修改现有NLP数据集创建，适用于评估模型在处理实际长文档任务中的性能。

The MuLD dataset was created by the Department of Computer Science at Durham University. It comprises 6 long-document tasks, each with an input document containing at least 10,000 tokens. Covering a diverse range of dataset sizes, types and formats, the dataset is specifically designed to evaluate models' ability to handle long-range dependencies in lengthy texts. Developed by filtering, expanding or modifying existing NLP datasets, it is suitable for assessing model performance when processing real-world long-document tasks.

提供机构：

杜伦大学计算机科学系

创建时间：

2022-02-15

原始信息汇总

MuLD: The Multitask Long Document Benchmark

数据集概述

MuLD（Multitask Long Document Benchmark）是一个包含6个自然语言处理任务的数据集，其中输入文本至少包含10,000个单词。该基准涵盖了多种任务类型，包括翻译、摘要、问答和分类。此外，输出长度从单个单词的分类标签到比输入文本更长的输出不等。

数据集加载

可以使用Huggingface Datasets库加载数据集： python import datasets ds = datasets.load_dataset("ghomasHudson/muld", "NarrativeQA") ds = datasets.load_dataset("ghomasHudson/muld", "HotpotQA") ds = datasets.load_dataset("ghomasHudson/muld", "Character Archetype Classification") ds = datasets.load_dataset("ghomasHudson/muld", "OpenSubtitles") ds = datasets.load_dataset("ghomasHudson/muld", "AO3 Style Change Detection") ds = datasets.load_dataset("ghomasHudson/muld", "VLSP")

或者通过克隆仓库加载： python import datasets ds = datasets.load_dataset("./muld.py", "NarrativeQA") ...

手动下载

如果需要手动下载数据文件，可以访问以下链接：

NarrativeQA
- 训练集：链接
- 验证集：链接
- 测试集：链接
- 镜像：训练集验证集测试集
HotpotQA
- 训练集：链接
- 验证集：链接
- 镜像：训练集验证集
Character Archetype Classification
- 训练集：链接
- 验证集：链接
- 测试集：链接
- 镜像：训练集验证集测试集
OpenSubtitles
- 训练集：链接
- 测试集：链接
- 镜像：训练集测试集
AO3 Style Change Detection
- 训练集：链接
- 验证集：链接
- 测试集：链接
- 镜像：训练集验证集测试集
VLSP
- 测试集：链接
- 镜像：测试集

引用

如果使用该基准，请引用以下论文：

@InProceedings{hudson-almoubayed:2022:LREC, author = {Hudson, George and Al Moubayed, Noura}, title = {MuLD: The Multitask Long Document Benchmark}, booktitle = {Proceedings of the Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {3675--3685}, url = {https://aclanthology.org/2022.lrec-1.392} }

数据集元数据

以下表格是该数据集被搜索引擎索引所需的元数据： <div itemscope itemtype="http://schema.org/Dataset"> <table> <tr> <th>属性</th> <th>值</th> </tr> <tr> <td>名称</td> <td><code itemprop="name">MuLD</code></td> </tr> <tr> <td>别名</td> <td><code itemprop="alternateName">Multitask Long Document Benchmark</code></td> </tr> <tr> <td>URL</td> <td><code itemprop="url">https://github.com/ghomasHudson/muld</code></td> </tr> <tr> <td>描述</td> <td><code itemprop="description">MuLD (Multitask Long Document Benchmark) is a set of 6 NLP tasks where the inputs consist of at least 10,000 words. The benchmark covers a wide variety of task types including translation, summarization, question answering, and classification. Additionally there is a range of output lengths from a single word classification label all the way up to an output longer than the input text.</code></td> </tr> <tr> <td>引用</td> <td><code itemprop="citation">https://arxiv.org/abs/2202.07362</code></td> </tr> <tr> <td>创建者</td> <td> <div itemscope itemtype="http://schema.org/Person" itemprop="creator"> <table> <tr> <th>属性</th> <th>值</th> </tr> <tr> <td>名称</td> <td><code itemprop="name">Thomas Hudson</code></td> </tr> <tr> <td>sameAs</td> <td><code itemprop="sameAs">https://orcid.org/0000-0003-3562-3593</code></td> </tr> </table> </div> </td> </tr> </table> </div>

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长文档理解一直是技术发展的关键挑战。MuLD数据集的构建基于对现有NLP任务的精心改造，通过筛选、扩展或重构方法，确保每个输入文档均超过10,000个词元。具体而言，该数据集整合了六项任务，包括叙事问答、多跳问答、风格变化检测、角色类型分类、科学论文摘要和字幕翻译。例如，叙事问答任务通过过滤短文档保留完整叙事文本，而多跳问答则通过引入完整维基百科页面及干扰文章来扩展输入长度，从而模拟真实世界长文档的复杂性。

特点

MuLD数据集的显著特点在于其严格的长文档定义与任务多样性。所有输入文档均超过10,000个词元，部分甚至达到数十万词元，远超传统长文档基准的尺度。该数据集涵盖问答、分类、摘要和翻译等多种任务类型，输出长度从单一词汇到与输入等长的文本不等，全面评估模型对长期依赖关系的建模能力。此外，数据集基于真实文本构建，如小说、电影脚本和学术论文，确保了任务的实际性与挑战性，为高效Transformer模型的性能提供了严谨的测试平台。

使用方法

使用MuLD数据集时，研究者通常采用分块处理策略以适应模型输入限制。例如，在叙事问答和多跳问答任务中，通过TF-IDF相似性选择与问题最相关的文本块；在翻译任务中，文档被按行分割并独立翻译后重组。对于分类任务，如风格变化检测，则基于段落对训练分类器以识别作者变更。基准评估包括T5和Longformer模型，利用自动指标如BLEU、ROUGE和F1分数衡量性能。数据集的开源特性鼓励进一步探索高效分块方法和长上下文模型，以推动长文档NLP技术的发展。

背景与挑战

背景概述

在自然语言处理领域，随着预训练语言模型的迅猛发展，多任务基准如GLUE和SuperGLUE推动了技术的显著进步。然而，这些基准主要关注短文本任务，而现实世界中的许多应用涉及处理长达数万标记的长文档，如小说、学术论文或报告。为此，杜伦大学计算机科学系的G Thomas Hudson和Noura Al Moubayed于2022年推出了MuLD（多任务长文档基准），旨在填补长文档处理评估的空白。MuLD专注于文档长度超过10,000标记的任务，通过修改现有NLP数据集构建了一个多样化的基准，涵盖问答、摘要、翻译等多种任务类型，以测试模型对长文本依赖关系的建模能力。该基准的创建不仅促进了高效Transformer模型的研究，还为长文档自然语言理解提供了标准化评估平台，对推动NLP技术向更复杂、真实场景的应用具有深远影响。

当前挑战

MuLD基准所解决的核心领域问题是长文档自然语言处理，其挑战在于模型需有效捕捉文本中的长期依赖关系，以完成如叙事理解、多跳问答等复杂任务。传统Transformer因自注意力机制的二次复杂度限制，难以处理超长序列，导致模型在长上下文中的性能下降。构建过程中，研究人员面临多重挑战：首先，筛选或扩展现有数据集至超过10,000标记的最小长度，需确保文档多样性和任务代表性，同时避免引入偏差；其次，长文档的标注与验证成本高昂，尤其在风格检测或角色分类等任务中，依赖人工注释以保障质量；此外，基准设计需平衡输入依赖程度和输出长度变化，以全面评估模型能力。这些挑战凸显了长文档NLP在数据构建与模型优化方面的复杂性，为未来研究指明了方向。

常用场景

经典使用场景

在自然语言处理领域，长文档理解一直是模型能力评估的关键挑战。MuLD基准通过整合六个任务，如叙事问答和风格变化检测，为研究者提供了评估模型处理超过一万个标记文档能力的标准化平台。其经典使用场景在于系统性地测试高效Transformer模型在真实世界长文本任务中的表现，推动模型在长距离依赖建模方面的进步。

实际应用

在实际应用中，MuLD基准的任务设计紧密贴合现实需求，如基于完整小说或电影脚本的叙事问答可用于智能阅读辅助系统；长文档翻译任务能改善上下文相关的代词消歧；风格变化检测可应用于多作者文档分析。这些场景对法律文档处理、学术论文摘要生成以及跨语言媒体内容本地化等产业应用具有直接参考价值。

衍生相关工作

MuLD基准的发布促进了长文档处理领域的一系列衍生研究。例如，基于其任务框架，后续工作探索了更精细的文档分块策略和层次化注意力机制；同时，该基准也为SCROLLS等标准化长序列评估体系的构建提供了启发。在模型层面，Longformer和Transformer-XL等高效架构的优化方向受到MuLD评估结果的直接影响，推动了长上下文建模技术的迭代发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集