five

ghomasHudson/muld

收藏
Hugging Face2022-11-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ghomasHudson/muld
下载链接
链接失效反馈
官方服务:
资源简介:
MuLD(多任务长文档基准)是一个包含至少10,000字的长文档数据集,涵盖翻译、摘要、问答和分类等多种NLP任务。该数据集支持英语和德语,具有多种任务类型和输出长度,每个实例包含输入字符串、输出字符串和可选的元数据。

MuLD(多任务长文档基准)是一个包含至少10,000字的长文档数据集,涵盖翻译、摘要、问答和分类等多种NLP任务。该数据集支持英语和德语,具有多种任务类型和输出长度,每个实例包含输入字符串、输出字符串和可选的元数据。
提供机构:
ghomasHudson
原始信息汇总

MuLD 数据集概述

基本信息

  • 名称: The Multitask Long Document Benchmark (MuLD)
  • 语言: 英语 (en), 德语 (de)
  • 多语言性: 翻译, 单语
  • 数据来源: 原始数据, 扩展自 HotpotQA 和 OpenSubtitles
  • 任务类型: 问答, 摘要, 文本生成, 翻译
  • 任务ID: 抽象问答 (abstractive-qa)
  • 标签: 条件文本生成

数据集结构

  • 数据字段:
    • input: 输入字符串,结构因任务而异,但格式统一。
    • output: 输出字符串列表,每个字符串为可能的答案。多数实例只有一个答案,但如 NarrativeQA 和 VLSP 可能包含多个答案。
    • metadata: 附加元数据,可能有助于评估。目前仅 OpenSubtitles 任务包含元数据。

任务详情

  • 任务列表:
    • NarrativeQA: 理解书籍和电影情节的问答数据集。
    • HotpotQA: 扩展自 HotpotQA,要求在多个维基百科页面间进行多跳推理。
    • OpenSubtitles: 基于 OpenSubtitles 2018 数据集的翻译数据集,提供每部电视剧的完整字幕,英德双语。
    • VLSP (Very Long Scientific Papers): 科学论文摘要数据集的扩展版本,特别包含长论文。
    • AO3 Style Change Detection: 从多个 Archive of Our Own 作者的作品中预测每个段落的作者。
    • Movie Character Types: 根据电影剧本预测角色是否为英雄/反派。

数据分割

  • 分割详情:
    任务名称 训练集 验证集 测试集
    NarrativeQA ✔️ ✔️ ✔️
    HotpotQA ✔️ ✔️
    AO3 Style Change Detection ✔️ ✔️ ✔️
    Movie Character Types ✔️ ✔️ ✔️
    VLSP ✔️
    OpenSubtitles ✔️ ✔️

引用信息

@misc{hudson2022muld, title={MuLD: The Multitask Long Document Benchmark}, author={G Thomas Hudson and Noura Al Moubayed}, year={2022}, eprint={2202.07362}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,长文档理解任务日益凸显其重要性。MuLD基准的构建融合了多元数据源,包括原始数据集与扩展版本,如HotpotQA与OpenSubtitles。通过精心筛选与整合,确保每个任务输入文本均超过一万词,涵盖翻译、摘要、问答及分类等多种任务类型。数据格式统一为文本到文本的结构,每个实例包含输入字符串、输出字符串及可选的元数据,为模型评估提供了标准化框架。
特点
MuLD基准以其广泛的任务覆盖和长文档输入为显著特征。该数据集包含六个独立任务,如NarrativeQA的叙事理解、HotpotQA的多跳推理,以及OpenSubtitles的跨语言翻译,输出长度从单一标签到超越输入的文本不等。这种多样性不仅挑战模型的长上下文处理能力,还促进了多任务学习的探索。数据以统一格式呈现,便于跨任务比较与评估,为自然语言处理研究提供了丰富的实验平台。
使用方法
在应用MuLD基准时,研究者可依据任务需求选择相应数据集进行模型训练与评估。数据以文本到文本格式提供,输入为长文档字符串,输出为答案列表,支持直接用于生成或分类模型。用户可通过HuggingFace平台访问数据,利用提供的训练、验证和测试分割进行实验。此外,元数据字段为特定任务(如OpenSubtitles)提供额外信息,有助于深入分析。该基准适用于评估模型在长文档多任务场景下的综合性能。
背景与挑战
背景概述
在自然语言处理领域,长文档理解一直是研究的前沿与难点,传统数据集往往聚焦于短文本任务,难以全面评估模型处理大规模上下文的能力。MuLD(多任务长文档基准)由G Thomas Hudson与Noura Al Moubayed于2022年提出,旨在构建一个涵盖多种任务类型、输入长度超过一万词的综合性基准。该数据集整合了叙事问答、多跳推理、翻译、摘要、风格检测及角色分类等六项任务,其核心研究问题在于探索模型在长文档场景下的泛化与推理能力,为推进文档级自然语言处理技术的发展提供了关键的数据支撑,并对相关领域的模型评估与优化产生了深远影响。
当前挑战
MuLD数据集所解决的领域问题涉及长文档多任务处理,其核心挑战在于模型需同时应对不同任务类型的复杂性,如跨文档的多跳推理、长距离依赖的摘要生成以及细粒度的风格检测,这些任务要求模型具备强大的上下文理解与信息整合能力。在构建过程中,数据集面临多重挑战:一是数据来源的异构性,需从书籍、电影脚本、维基百科及学术论文等多种渠道整合并统一格式;二是长文档的标注难度高,尤其在叙事问答和摘要任务中,确保答案的准确性与一致性需要精细的众包或专家审核;三是多语言翻译任务的平衡,如OpenSubtitles中的英德双语对齐,需处理字幕时序与语义对应问题,以维持数据的质量与可用性。
常用场景
经典使用场景
在自然语言处理领域,长文档理解一直是模型能力评估的关键挑战。MuLD数据集通过整合六个任务,为研究者提供了一个统一的基准测试平台,特别适用于评估模型在超长文本输入下的性能。其经典使用场景包括训练和测试模型在叙事理解、多跳推理、跨语言翻译以及文档风格检测等方面的综合能力,这些任务均要求模型处理超过一万词的输入,从而深入检验其长距离依赖捕捉和信息整合效率。
解决学术问题
MuLD数据集针对自然语言处理中长文档建模的瓶颈问题,提供了系统性的解决方案。它有效解决了传统基准测试中文本长度受限、任务类型单一的问题,通过涵盖问答、摘要、翻译和分类等多种任务,促进了模型在复杂语境下的泛化能力研究。该数据集的意义在于推动了长文档处理技术的发展,为评估模型在真实世界长文本场景中的表现设立了新标准,对提升语言模型的实用性和鲁棒性产生了深远影响。
衍生相关工作
基于MuLD数据集,学术界已衍生出多项经典研究工作。这些工作主要集中在改进Transformer架构的长序列处理能力,例如开发更高效的位置编码和注意力机制,以应对长文档带来的计算挑战。同时,研究者利用该数据集的多任务特性,探索了跨任务知识迁移和模型压缩技术,推动了如Longformer和BigBird等高效长文本模型的演进,为后续长文档基准的构建和优化提供了理论基础和实践经验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作