GEM/wiki_lingua

Hugging Face2023-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/wiki_lingua

下载链接

链接失效反馈

官方服务：

资源简介：

GEM/wiki_lingua数据集是一个大规模、多语言的跨语言摘要生成基准数据集，涵盖了18种语言，包括英语、西班牙语、葡萄牙语、法语、德语、俄语、意大利语、印度尼西亚语、荷兰语、阿拉伯语、中文、越南语、泰语、日语、韩语、印地语、捷克语和土耳其语。该数据集旨在为跨语言和多语言摘要生成任务提供高质量的资源，支持从多种源语言到目标语言的摘要生成。数据集的结构包括数据字段（如gem_id、source_language、target_language、source等）、示例实例和数据分割（train/dev/test）。数据集在GEM中的包含理由是其提供了多语言覆盖，增加了GEM摘要任务的语言范围。

The GEM/wiki_lingua dataset is a large-scale, multilingual cross-lingual summarization benchmark dataset covering 18 languages, including English, Spanish, Portuguese, French, German, Russian, Italian, Indonesian, Dutch, Arabic, Chinese, Vietnamese, Thai, Japanese, Korean, Hindi, Czech, and Turkish. This dataset aims to provide high-quality resources for cross-lingual and multilingual summarization tasks, supporting summarization generation from multiple source languages to target languages. The dataset's structure includes data fields (e.g., "gem_id", "source_language", "target_language", "source"), sample instances, and data splits (train/dev/test). The rationale for its inclusion in GEM is that it offers comprehensive multilingual coverage, expanding the language scope of GEM's summarization tasks.

提供机构：

GEM

原始信息汇总

数据集概述

名称: wiki_lingua

语言: 多语言，包括英语、西班牙语、葡萄牙语、法语、德语、俄语、意大利语、印度尼西亚语、荷兰语、阿拉伯语、中文、越南语、泰语、日语、韩语、印地语、捷克语、土耳其语。

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)

主要任务: 摘要生成

数据结构:

gem_id: 数据实例的ID。
source_language: 源文章的语言。
target_language: 目标摘要的语言。
source: 源文档。

示例实例: json { "gem_id": "wikilingua_crosslingual-train-12345", "gem_parent_id": "wikilingua_crosslingual-train-12345", "source_language": "fr", "target_language": "de", "source": "Document in fr", "target": "Summary in de", }

数据分割: 分为训练/开发/测试集。

分割标准: 确保同一文档在不同语言中的同一分割中出现，以防止测试集泄露。

使用目的: 作为大规模、高质量的跨语言摘要生成基准数据集。

能力测量: 测量模型在多语言环境中生成高质量摘要的能力。

维护: 无维护计划。

版权限制: 仅限非商业使用。

搜集汇总

数据集介绍

构建方式

在跨语言摘要生成研究领域，WikiLingua数据集的构建体现了对多语言资源整合的深度探索。该数据集源自WikiHow平台，该平台汇集了由人类作者撰写并审阅的高质量操作指南文章。研究团队通过巧妙利用文章内描述操作步骤的图片作为跨语言对齐的锚点，实现了18种语言间文章与摘要的精准配对。这一方法不仅确保了不同语言版本间内容的语义一致性，还避免了依赖机器翻译可能引入的误差，从而构建出一个规模庞大且对齐可靠的多语言摘要数据集。

特点

WikiLingua数据集的核心特征在于其广泛的语言覆盖与独特的领域构成。该数据集囊括了包括英语、中文、阿拉伯语、印地语等在内的18种语言，显著拓展了摘要任务的语言多样性边界。与专注于新闻领域的XSum或MLSum等数据集不同，WikiLingua的语料来源于WikiHow的操作指南文章，涵盖了健康、艺术、旅行、教育等19个日常生活类别，呈现出主题多样且实用性强的文本风格。这种多语言、多领域的组合为模型评估提供了更为丰富和贴近实际应用场景的测试环境。

使用方法

为便于研究者使用，该数据集已集成于HuggingFace的datasets库中，可通过简单的代码调用进行加载。数据集提供了两种主要的数据加载器：一种是针对单语摘要任务的加载器，包含每种语言内部的文章-摘要对；另一种是专为跨语言摘要设计的加载器，支持任意两种语言间的摘要生成任务。数据已预先划分为训练集、开发集和测试集，并确保了同一文档在不同语言版本中均处于同一数据分割，有效防止了数据泄露。评估时，通常采用ROUGE指标自动衡量生成摘要的内容重合度，并可辅以人工评估来综合判断摘要的流畅性与信息完整性。

背景与挑战

背景概述

在自然语言处理领域，跨语言摘要生成作为一项前沿任务，旨在突破单一语言界限，实现多语言间信息的高效浓缩与转换。WikiLingua数据集由哥伦比亚大学、斯坦福大学及康奈尔大学的研究团队于2020年联合创建，其核心研究问题聚焦于构建大规模、高质量的跨语言抽象摘要生成基准。该数据集从WikiHow平台提取了涵盖18种语言的教程文章与摘要对，通过图像对齐技术确保跨语言内容的语义一致性，为多语言摘要模型的训练与评估提供了重要资源，显著推动了跨语言自然语言生成研究的发展。

当前挑战

WikiLingua数据集所应对的领域挑战在于跨语言摘要生成本身的高度复杂性，模型需在理解源语言文章的基础上，生成符合目标语言语法与文化习惯的凝练摘要，同时保持信息的完整性与准确性。在构建过程中，研究团队面临多重挑战：首先，确保多语言文章与摘要间的精准对齐，需克服语言差异带来的语义漂移问题；其次，从非结构化网络资源中提取高质量语料，并维持18种语言间数据规模与质量的均衡性，涉及复杂的清洗与验证流程；此外，数据集的非商业使用许可限制了其在工业场景的广泛应用，而语言覆盖虽广，但对部分低资源语言的代表性仍显不足。

常用场景

经典使用场景

在跨语言自然语言处理领域，WikiLingua数据集以其多语言特性与高质量摘要对，成为评估抽象摘要生成模型性能的经典基准。该数据集覆盖18种语言，通过从WikiHow平台提取的“如何做”指南文章及其摘要，构建了跨语言对齐的语料库。研究者通常利用该数据集训练与测试模型在不同语言间生成连贯、准确摘要的能力，尤其在零样本或少样本跨语言迁移场景中，WikiLingua为模型泛化性提供了标准化评估环境。

衍生相关工作

围绕WikiLingua数据集，学术界已衍生出一系列经典研究工作。例如，原论文提出的基于神经机器翻译预训练的跨语言摘要方法，为后续研究提供了强基线模型。许多研究在此基础上探索了多任务学习、跨语言对抗训练等策略，以提升摘要质量与语言适应性。此外，该数据集也常被用于评估如mBART、mT5等预训练多语言模型在摘要任务上的性能，推动了跨语言生成模型的架构创新与优化。

数据集最近研究