csebuetnlp/CrossSum

Name: csebuetnlp/CrossSum
Creator: csebuetnlp
Published: 2024-06-19 17:09:58
License: 暂无描述

Hugging Face2024-06-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/csebuetnlp/CrossSum

下载链接

链接失效反馈

官方服务：

资源简介：

CrossSum 是一个大规模的多语言数据集，包含 170 万篇跨语言文章摘要样本，涵盖 1500 多种语言对，涉及 45 种语言。该数据集基于多语言 XL-Sum 数据集构建，并通过语言无关的表示模型对不同语言的相同文章进行对齐。该数据集支持新闻文章摘要等任务，并采用 CC BY-NC-SA 4.0 许可证发布。README 文件中还提供了数据集的结构、支持的语言以及如何使用 Hugging Face 的 `datasets` 库加载数据集的信息。

CrossSum is a large-scale multilingual dataset containing 1.7 million cross-lingual article summary samples, covering over 1500 language pairs and involving 45 languages. It is constructed based on the multilingual XL-Sum dataset, and aligns identical articles across different languages via language-agnostic representation models. This dataset supports tasks such as news article summarization, and is released under the CC BY-NC-SA 4.0 license. The README file also provides information about the dataset's structure, supported languages, and how to load the dataset using Hugging Face's `datasets` library.

提供机构：

csebuetnlp

原始信息汇总

数据集概述

数据集名称: CrossSum

任务类别: 摘要生成

任务ID: news-articles-summarization

语言: 包含45种语言，如阿姆哈拉语、阿拉伯语、阿塞拜疆语、孟加拉语、缅甸语、简体中文、繁体中文、英语、法语等。

数据集大小: 1M<n<10M

许可证: cc-by-nc-sa-4.0

多语言性: 多语言

源数据集: 原始数据

注释创建者: 发现

语言创建者: 发现

数据集结构:

数据字段:
- source_url: 源文章URL
- target_url: 目标文章URL
- summary: 文章摘要
- text: 文章全文
数据分割: 不同语言对的总示例数详细列出，如am、ar、az等语言对的具体示例数量。

数据集创建

数据收集和规范化: 详细信息见论文https://arxiv.org/abs/2112.08804/

源语言生产者: 详细信息见论文https://arxiv.org/abs/2112.08804/

注释过程: 详细信息见论文https://arxiv.org/abs/2112.08804/

注释者: 详细信息见论文https://arxiv.org/abs/2112.08804/

搜集汇总

数据集介绍

构建方式

在跨语言文本摘要研究领域，CrossSum数据集的构建体现了对多语言信息对齐的深度探索。该数据集以多语言XL-Sum为基础，通过语言无关的表示模型进行跨语言检索，精准匹配不同语言中内容相同的新闻文章，从而构建出涵盖45种语言、超过1500种语言对的170万条跨语言摘要样本。这一过程不仅依赖于大规模的多语言语料，还运用了先进的表示学习技术，确保了跨语言对齐的准确性与广泛性。

特点

CrossSum数据集的核心特征在于其卓越的多语言覆盖与丰富的语言对组合。数据集囊括了从阿姆哈拉语到约鲁巴语等45种语言，形成了1500余种语言对，为跨语言摘要研究提供了前所未有的语言多样性。每个样本均包含源语言文章、目标语言文章及其对应摘要，并附有原始URL，确保了数据的可追溯性与完整性。这种大规模、高质量的多语言对齐结构，为探索语言间的语义迁移与摘要生成机制奠定了坚实基础。

使用方法

在自然语言处理的应用实践中，CrossSum数据集为跨语言摘要模型的训练与评估提供了标准化平台。研究者可通过HuggingFace的datasets库直接加载特定语言对的数据，例如指定源语言为英语、目标语言为孟加拉语，即可获取相应的文章-摘要对。数据集的结构清晰，包含文本、摘要及URL字段，便于进行端到端的模型训练或跨语言迁移学习实验。其丰富的语言对支持也为比较不同语言间的摘要生成性能提供了便利条件。

背景与挑战

背景概述

跨语言文本摘要作为自然语言处理领域的关键研究方向，旨在突破单一语言限制，实现多语言间信息的高效转换与传递。由孟加拉国工程技术大学计算机科学与工程系的研究团队于2021年创建的CrossSum数据集，正是这一领域的重要里程碑。该数据集基于多语言XL-Sum数据集，通过语言无关的表示模型进行跨语言检索，对齐了不同语言撰写的相同新闻文章，构建了涵盖45种语言、超过1500个语言对、总计170万条样本的大规模跨语言摘要资源。其核心研究问题聚焦于解决非英语中心主义的跨语言抽象摘要生成，为低资源语言提供了宝贵的训练与评估基准，显著推动了多语言摘要模型的公平性与泛化能力研究。

当前挑战

CrossSum数据集所针对的跨语言摘要任务面临多重挑战。在领域问题层面，模型需克服语言间的结构差异与文化语境隔阂，实现语义等价且流畅自然的摘要生成，尤其对于形态丰富或资源稀缺的语言，保持摘要的忠实性与可读性更为艰巨。在构建过程中，研究团队需应对大规模多语言数据对齐的复杂性，确保不同语言版本文章内容的严格匹配，同时处理数据噪声与标注不一致问题。此外，数据集的规模与语言多样性虽为优势，但也带来了计算资源需求激增与模型优化难度提升等实际挑战，对算法的效率与鲁棒性提出了更高要求。

常用场景

经典使用场景

在跨语言自然语言处理领域，CrossSum数据集为研究者提供了丰富的多语言摘要生成任务资源。该数据集通过跨语言检索技术，将同一新闻内容在不同语言版本间进行对齐，构建了超过1500种语言对的平行语料。这种设计使得模型能够学习语言间的语义对应关系，进而实现从源语言文本到目标语言摘要的端到端生成。在经典使用场景中，研究人员常利用该数据集训练跨语言抽象摘要模型，评估模型在未见语言对上的泛化能力，探索多语言表示学习的有效性。

衍生相关工作

围绕CrossSum数据集，学术界衍生出一系列经典研究工作。部分研究聚焦于改进跨语言检索算法，提升低资源语言对的语义对齐精度。另有工作探索多任务学习框架，将摘要生成与机器翻译任务相结合，增强模型的语言迁移能力。基于该数据集训练的模型如mT5、mBART等多语言预训练模型，在跨语言摘要评测中展现了优越性能。这些研究共同推动了跨语言自然语言处理技术的发展，为后续大规模多语言模型提供了重要的训练与评估基准。

数据集最近研究