ghomasHudson/muld

Name: ghomasHudson/muld
Creator: ghomasHudson
Published: 2022-11-02 12:55:17
License: 暂无描述

Hugging Face2022-11-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ghomasHudson/muld

下载链接

链接失效反馈

官方服务：

资源简介：

MuLD（多任务长文档基准）是一个包含至少10,000字的长文档数据集，涵盖翻译、摘要、问答和分类等多种NLP任务。该数据集支持英语和德语，具有多种任务类型和输出长度，每个实例包含输入字符串、输出字符串和可选的元数据。

提供机构：

ghomasHudson

原始信息汇总

MuLD 数据集概述

基本信息

名称: The Multitask Long Document Benchmark (MuLD)
语言: 英语 (en), 德语 (de)
多语言性: 翻译, 单语
数据来源: 原始数据, 扩展自 HotpotQA 和 OpenSubtitles
任务类型: 问答, 摘要, 文本生成, 翻译
任务ID: 抽象问答 (abstractive-qa)
标签: 条件文本生成

数据集结构

数据字段:
- input: 输入字符串，结构因任务而异，但格式统一。
- output: 输出字符串列表，每个字符串为可能的答案。多数实例只有一个答案，但如 NarrativeQA 和 VLSP 可能包含多个答案。
- metadata: 附加元数据，可能有助于评估。目前仅 OpenSubtitles 任务包含元数据。

任务详情

任务列表:
- NarrativeQA: 理解书籍和电影情节的问答数据集。
- HotpotQA: 扩展自 HotpotQA，要求在多个维基百科页面间进行多跳推理。
- OpenSubtitles: 基于 OpenSubtitles 2018 数据集的翻译数据集，提供每部电视剧的完整字幕，英德双语。
- VLSP (Very Long Scientific Papers): 科学论文摘要数据集的扩展版本，特别包含长论文。
- AO3 Style Change Detection: 从多个 Archive of Our Own 作者的作品中预测每个段落的作者。
- Movie Character Types: 根据电影剧本预测角色是否为英雄/反派。

数据分割

分割详情:

任务名称	训练集	验证集	测试集
NarrativeQA	✔️	✔️	✔️
HotpotQA	✔️	✔️
AO3 Style Change Detection	✔️	✔️	✔️
Movie Character Types	✔️	✔️	✔️
VLSP			✔️
OpenSubtitles	✔️		✔️

引用信息

@misc{hudson2022muld, title={MuLD: The Multitask Long Document Benchmark}, author={G Thomas Hudson and Noura Al Moubayed}, year={2022}, eprint={2202.07362}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长文档理解任务日益凸显其重要性。MuLD基准的构建融合了多元数据源，包括原始数据集与扩展版本，如HotpotQA与OpenSubtitles。通过精心筛选与整合，确保每个任务输入文本均超过一万词，涵盖翻译、摘要、问答及分类等多种任务类型。数据格式统一为文本到文本的结构，每个实例包含输入字符串、输出字符串及可选的元数据，为模型评估提供了标准化框架。

特点

MuLD基准以其广泛的任务覆盖和长文档输入为显著特征。该数据集包含六个独立任务，如NarrativeQA的叙事理解、HotpotQA的多跳推理，以及OpenSubtitles的跨语言翻译，输出长度从单一标签到超越输入的文本不等。这种多样性不仅挑战模型的长上下文处理能力，还促进了多任务学习的探索。数据以统一格式呈现，便于跨任务比较与评估，为自然语言处理研究提供了丰富的实验平台。

使用方法

在应用MuLD基准时，研究者可依据任务需求选择相应数据集进行模型训练与评估。数据以文本到文本格式提供，输入为长文档字符串，输出为答案列表，支持直接用于生成或分类模型。用户可通过HuggingFace平台访问数据，利用提供的训练、验证和测试分割进行实验。此外，元数据字段为特定任务（如OpenSubtitles）提供额外信息，有助于深入分析。该基准适用于评估模型在长文档多任务场景下的综合性能。

背景与挑战

背景概述

在自然语言处理领域，长文档理解一直是研究的前沿与难点，传统数据集往往聚焦于短文本任务，难以全面评估模型处理大规模上下文的能力。MuLD（多任务长文档基准）由G Thomas Hudson与Noura Al Moubayed于2022年提出，旨在构建一个涵盖多种任务类型、输入长度超过一万词的综合性基准。该数据集整合了叙事问答、多跳推理、翻译、摘要、风格检测及角色分类等六项任务，其核心研究问题在于探索模型在长文档场景下的泛化与推理能力，为推进文档级自然语言处理技术的发展提供了关键的数据支撑，并对相关领域的模型评估与优化产生了深远影响。

当前挑战

MuLD数据集所解决的领域问题涉及长文档多任务处理，其核心挑战在于模型需同时应对不同任务类型的复杂性，如跨文档的多跳推理、长距离依赖的摘要生成以及细粒度的风格检测，这些任务要求模型具备强大的上下文理解与信息整合能力。在构建过程中，数据集面临多重挑战：一是数据来源的异构性，需从书籍、电影脚本、维基百科及学术论文等多种渠道整合并统一格式；二是长文档的标注难度高，尤其在叙事问答和摘要任务中，确保答案的准确性与一致性需要精细的众包或专家审核；三是多语言翻译任务的平衡，如OpenSubtitles中的英德双语对齐，需处理字幕时序与语义对应问题，以维持数据的质量与可用性。

常用场景

经典使用场景

在自然语言处理领域，长文档理解一直是模型能力评估的关键挑战。MuLD数据集通过整合六个任务，为研究者提供了一个统一的基准测试平台，特别适用于评估模型在超长文本输入下的性能。其经典使用场景包括训练和测试模型在叙事理解、多跳推理、跨语言翻译以及文档风格检测等方面的综合能力，这些任务均要求模型处理超过一万词的输入，从而深入检验其长距离依赖捕捉和信息整合效率。

解决学术问题

MuLD数据集针对自然语言处理中长文档建模的瓶颈问题，提供了系统性的解决方案。它有效解决了传统基准测试中文本长度受限、任务类型单一的问题，通过涵盖问答、摘要、翻译和分类等多种任务，促进了模型在复杂语境下的泛化能力研究。该数据集的意义在于推动了长文档处理技术的发展，为评估模型在真实世界长文本场景中的表现设立了新标准，对提升语言模型的实用性和鲁棒性产生了深远影响。

衍生相关工作

基于MuLD数据集，学术界已衍生出多项经典研究工作。这些工作主要集中在改进Transformer架构的长序列处理能力，例如开发更高效的位置编码和注意力机制，以应对长文档带来的计算挑战。同时，研究者利用该数据集的多任务特性，探索了跨任务知识迁移和模型压缩技术，推动了如Longformer和BigBird等高效长文本模型的演进，为后续长文档基准的构建和优化提供了理论基础和实践经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集